← 博客

Mirelo AI Sfx V1.5 视频转视频现已登陆WaveSpeedAI

Mirelo SFX V1.5 为任何视频生成同步音效和音频,产生与视觉效果同步的 SFX。即用型 REST 推理 API、最佳性能、无冷启动、价格实惠。

2 min read
Mirelo Ai Sfx V1.5 Video To Video
Mirelo Ai Sfx V1.5 Video To Video Mirelo SFX V1.5 为任何视频生成同步音效和音频,产生与视觉效果同步的 SFX。即用型 REST 推理 AP...
Try it
Mirelo AI Sfx V1.5 视频转视频现已登陆WaveSpeedAI

Mirelo SFX V1.5 视频转视频现已在 WaveSpeedAI 上推出

AI 生成视频的世界存在一个无声的问题——字面上的无声。虽然 Sora、Veo 和 Kling 等模型已经彻底改变了视觉内容创作,但它们为创作者留下了美妙的画面,却缺少赋予媒体生命的音频维度。今天,我们很高兴地宣布 Mirelo SFX V1.5 现已在 WaveSpeedAI 上推出,让您能够将无声视频转变为完全同步的视听体验。

Mirelo SFX V1.5 是什么?

Mirelo SFX V1.5 是由柏林的 Mirelo AI 公司开发的尖端视频转音频模型,该公司由前 AWS Labs 研究员 CJ Simon-Gabriel 和 Florian Wenzel 创立。两位创始人都拥有独特的资历:CJ 拥有来自马克斯·普朗克研究所的机器学习博士学位,并在苏黎世联邦理工学院进行过博士后研究,而 Florian 拥有洪堡大学的深度学习博士学位,之前曾在 Google Brain 工作。

该模型使用先进的多模态 AI 来分析视频内容并生成完全同步的音效。它不仅能检测动作——它能理解内容。无论您的视频是砾石上的脚步声、雨水打在窗户上,还是戏剧性的爆炸,Mirelo SFX V1.5 都能创建与视频视觉节奏相匹配的逼真、电影级音效。

主要特性

人工智能驱动的声音合成

该模型直接从视频帧生成与物体运动、时间和能量精确匹配的音效。与简单的音频叠加不同,Mirelo 的方法确保每个声音都对应屏幕上实际发生的情况。

电影级感知

Mirelo SFX V1.5 检测屏幕上的动作,包括撞击、运动强度和场景转换,生成专业制作般的效果。该模型能够区分轻轻敲击和用力打击,相应地调整音频特性。

盲测中的卓越品质

在独立评估中,Mirelo SFX V1.5 与 Kling 文本转音频和腾讯-混元 VideoFoley 等流行替代品相比,获得了 68.3% 的获胜率(不计平局)和 73.2%(计入平局)。在听力测试中,用户对 Mirelo 的输出的偏好率为 67-77%。

生产就绪的输出

该模型提供清晰、有内容的音效,没有困扰许多竞争对手的音频伪影、失真或不需要的音乐/语音泄漏。您获得的是生产级的质量。

轻量级且快速

Mirelo 的架构所需的计算量是典型大型语言模型的 50 倍之少,同时仍能提供卓越的质量。生成速度最高可达 ** 实时速度的 1.7 倍**,这意味着 10 秒的视频可以在大约 6 秒内生成其音效。

多种变化

为同一个视频生成多个声音版本,在后期制作中为您提供创意控制。在选择完美音频进行最终剪辑之前审听不同的版本。

真实应用场景

内容创作者和社交媒体

将您的 AI 生成视频从无声片段转变为引人入胜的内容。无论您是在创建 TikTok、YouTube 短视频还是 Instagram Reels,同步的音频会大大增加观众参与度和观看时间。

电影和动画制作

通过自动生成 Foley 音效来加快后期制作工作流程。虽然专业 Foley 艺术家对于关键时刻仍然无价,但 Mirelo SFX V1.5 可以处理背景音频和辅助音效,为最重要的创意工作释放资源。

游戏开发

快速为游戏过场动画和剧情片段制作原型音频。生成占位符音效,在投资定制音频制作之前向利益相关者传达预期的体验。

营销和广告

无需昂贵的音效设计会议即可创建精美的视频广告。电子商务品牌可以生成具有适当环境音频的产品视频,而代理商可以更快地迭代创意概念。

AI 视频增强

如果您使用 Sora、Veo、Kling 或 Wan 等 AI 视频生成器,Mirelo SFX V1.5 是完美的伴侣。生成您的视觉效果,然后在几秒内添加同步音频——在单个工作流中完成视听体验。

在 WaveSpeedAI 上入门

在 WaveSpeedAI 上使用 Mirelo SFX V1.5 很简单:

  1. 上传您的视频,通过拖放或粘贴 URL(支持 MP4、MOV 格式)
  2. 添加可选提示,描述声音背景(例如,“木地板上的轻轻脚步声”、“金属敲击声”、“下雨街道氛围”)
  3. 设置样本数量,生成多个变化以获得创意灵活性
  4. 点击运行,在几秒内接收同步音频

该模型可以处理长度最多 10 秒的视频,典型生成时间为每次运行 6-12 秒。为获得最佳效果,使用短的、聚焦的剪辑,具有清晰、高对比度的运动。

定价

Mirelo SFX V1.5 提供可预测、经济实惠的定价:

  • 0-5 秒:最低费用($0.035 × 样本数量)
  • 5-10 秒:按实际时长计费($0.007 × 样本数 × 时长)
  • 每次运行最高:$0.07 × 样本数量

最佳效果的专业提示

  • 使用 10 秒以内的剪辑,具有聚焦的动作以获得最强的视觉与声音对齐
  • 包括上下文提示,如”下雨的街道,远处的雷声”,以获得更细致的结果
  • 生成 3-5 个样本以在选择最终音频之前审听变化
  • 调整种子值以获得微妙的时间和音调变化,同时保持同步

为什么选择 WaveSpeedAI?

当您在 WaveSpeedAI 上运行 Mirelo SFX V1.5 时,您将受益于:

  • 无冷启动:您的请求立即处理,无需等待模型初始化
  • 快速推理:优化的基础设施快速提供结果
  • 经济实惠的定价:使用透明的按秒计费方式,只为您使用的付费
  • 简单的 API 集成:使用我们的 REST API 将视频转音频功能集成到您的应用程序中

视听 AI 的未来

Mirelo SFX V1.5 的发布代表了弥合音频差距的重要里程碑,这一差距限制了 AI 生成视频内容。Mirelo 获得了 Index Ventures 和 Andreessen Horowitz 最近 4100 万美元的种子轮融资支持,继续推动 AI 声音生成可能性的边界。

随着 AI 视频模型变得越来越复杂,对同步音频的需求只会增长。Mirelo SFX V1.5 使创作者能够走在这一曲线的前面,将无声的 AI 视频转变为完整的多媒体体验。

立即开始创作

准备好为您的无声视频注入生命力了吗?Mirelo SFX V1.5 现已在 WaveSpeedAI 上推出。体验完全同步、AI 生成的音效能为您的内容带来的差异。

在 WaveSpeedAI 上尝试 Mirelo SFX V1.5 →