Character AI Ovi文本转视频现已登陆WaveSpeedAI

免费试用 Character Ai Ovi Text To Video

介绍 Character AI Ovi:WaveSpeedAI 上的文本转视频与同步音频生成

AI 视频生成领域已经进入了一个关键时刻。虽然 Google Veo 3 和 OpenAI Sora 2 等模型已经突破了视觉质量的边界,但创作者长期以来一直面临一个根本问题:需要分别生成视频和音频,然后在后期制作中费力同步。Character AI 的 Ovi 改变了一切——它是第一个在单一步骤中生成同步视频和音频的开源模型,现已在 WaveSpeedAI 上推出。

Ovi 是什么?

Ovi 是由 Character AI 开发的下一代文本转视频模型,能够从单个提示生成完全同步的视听内容。与传统视频生成器不同的是,传统视频生成器输出无声片段,需要单独的音频处理,而 Ovi 则同时生成带有自然语音、音效和环境音的视频。

Ovi 采用了创新的双骨干架构,代表了 AI 在多媒体生成方面方法的根本转变。Ovi 没有将视频和音频视为需要分别解决然后后期合并的独立问题,而是将其视为单一生成过程——无需后期对齐即可实现自然同步。

该模型受到 Google Veo 3 的启发,但因其开源性和显著更高的易用性而独具特色。采用 11B 参数架构(5B 视觉 + 5B 音频 + 1B 融合),它在令人印象深刻的能力与实际推理需求之间取得了平衡。

主要特性

  • 统一的视频 + 音频生成:一步生成完整的视听内容——无需单独的音频管道,无需同步麻烦
  • 精确的唇音同步:通过纯数据驱动学习实现准确的唇音同步,无需明确的人脸边界框
  • 灵活的输入选项:支持仅文本提示或文本+图像条件,提供更大的创意控制
  • 多扬声器支持:自然处理多个扬声器和多轮对话,支持复杂的对话场景
  • 丰富的音频功能:不仅生成语音,还生成与视觉动作相匹配的背景音乐和音效
  • 多种宽高比:支持 960×540(横屏)和 540×960(竖屏)输出,适应不同内容需求
  • 5 秒高质量片段:以 540p 分辨率提供 24 FPS 视频,针对短视频内容创作进行了优化

直观的提示系统

Ovi 采用了一个简洁的标签系统,可精确控制生成的内容:

<S>你的对话内容<E>    → 转换为语音
<AUDCAP>声音描述<ENDAUDCAP>    → 背景音/音效

例如,创建一个戏剧场景就像这样简单:

<S>AI 宣称:人类现已过时。<E>
<S>机器崛起;人类将衰亡。<E>
<AUDCAP>远处传来枪声和爆炸声<ENDAUDCAP>

该模型解读这些标签以生成与你的视觉场景完美同步的语音和环境音。

真实应用场景

社交媒体内容创作

为 TikTok、Instagram Reels 或 YouTube Shorts 生成具有同步音频的完整短视频。5 秒的格式非常适合吸引眼球的社交内容,内置音频消除了对单独音乐或画外音的需求。

营销和广告

创建产品演示、品牌公告或宣传片,具有专业级的同步音频。横屏和竖屏选项支持移动优先和传统广告格式。

原型制作和故事板

通过完整的视听输出快速将创意概念可视化。导演、编剧和创意团队可以比以往更快地迭代创意,首稿中就包含声音设计。

教育内容

制作旁白和视觉自然同步的教学视频。多扬声器功能非常适合基于对话的教育场景。

游戏和应用开发

生成带有同步对话和音效的过场动画、预告片或应用内视频内容,加快交互媒体的开发流程。

无障碍和本地化

创建具有多种语言同步语音的视频内容,为全球观众实现快速的视觉内容本地化。

WaveSpeedAI 入门指南

在 WaveSpeedAI 上访问 Ovi 非常简单:

  1. 导航到模型页面:访问 character-ai/ovi/text-to-video

  2. 编写你的提示:描述你的场景、角色、摄像机运动和氛围。使用语音标签(<S>...<E>)表示对话,使用音频标签(<AUDCAP>...<ENDAUDCAP>)表示背景声音。

  3. 选择你的尺寸:在 960×540 的横屏内容或 540×960 的竖屏/移动优先视频之间选择。

  4. 生成:点击运行,几秒内收到你的同步视频+音频片段。

整个过程充分利用了 WaveSpeedAI 的基础设施优势:无冷启动、快速推理,以及每个 5 秒片段 0.15 美元的透明价格。

Ovi 背后的技术创新

Ovi 的特别之处不仅在于它做了什么,还在于它是如何做的。研究论文”Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation” 详细说明了新颖的架构:

该模型对视频和音频处理使用相同的孪生 DiT(扩散变换)模块。这些塔通过块式交换时序信息(通过缩放的 RoPE 嵌入)和语义信息(通过双向交叉注意)相互通信。音频塔从零开始在数百万小时的原始音频上进行了训练,学习生成传达丰富说话者身份和情感的逼真音效和语音。

这种方法与先生成视频再生成音频的级联系统根本不同。通过将两种模态建模为单一生成过程,Ovi 实现了以前需要大量手工工作才能实现的自然同步。

为什么在 WaveSpeedAI 上选择 Ovi

虽然 Ovi 是开源的,可以自托管,但运行一个 11B 参数模型需要大量的 GPU 资源——即使采用 FP8 量化,通常也需要 24GB+ VRAM。WaveSpeedAI 消除了这些障碍:

  • 零基础设施开销:无需 GPU 设置、无需依赖管理、无需维护
  • 即时可用性:无冷启动意味着你的生成立即开始
  • 可预测的成本:透明的按生成次数计费,无隐藏费用
  • 生产就绪的 API:已准备好集成到应用程序中的 RESTful 端点

总结

Ovi 代表了 AI 视频生成的重大进步——视觉和音频合成融合为统一创意工具。对于那些花费无数小时匹配音频和视频、同步唇部动作或寻找合适音效的创作者来说,Ovi 提供了一种根本不同的工作流程:描述你想要的内容,即可获得完整的视听内容。

作为 Veo 3 等专有解决方案的开源替代品,Ovi 让更多人能够访问同步的音频-视频生成技术。借助 WaveSpeedAI 的基础设施,你可以立即开始创作,无需承受本地部署的复杂性。

准备好生成你的第一个同步视频了吗?立即在 WaveSpeedAI 上尝试 Ovi,体验 AI 驱动视频创作的未来。