Character AI Ovi图像转视频现已登陆WaveSpeedAI

免费试用 Character Ai Ovi Image To Video

在 WaveSpeedAI 上推出 Character AI Ovi 图像转视频功能

AI 视频生成的世界已进入一个新时代。我们很高兴宣布 Character AI Ovi 图像转视频 现已在 WaveSpeedAI 上推出——这是一个突破性的模型,能够将静止图像转变为动态的视听体验,在单一生成步骤中同步生成视频和音频。

Ovi 代表了 AI 驱动内容创作的重大飞跃。与传统视频生成模型不同,传统模型只产生无声片段,需要单独进行音频处理,而 Ovi 可以同时生成视频和音频,创建与专业制作质量相媲美的沉浸式内容。

什么是 Ovi?

Ovi 是由 Character AI 开发的类似 Veo-3 的图像转音频视频(I2AV)生成模型。基于研究论文 “Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation”,这个 110 亿参数模型(5B 视觉 + 5B 音频 + 1B 融合)采用革命性的双骨干架构,耦合两个匹配的潜在扩散转换器以实现无缝的视听合成。

该模型从 Wan 2.2 的视频骨干和 MMAudio 的音频编码和解码中汲取灵感,创建了一个统一的系统,消除了先生成无声视频然后添加声音的尴尬工作流。无论您需要对话、音效、环境音还是音乐,Ovi 都能在一次传输中处理所有内容。

Ovi 的独特之处在于其同步处理方法。该模型纯粹从数据中学习唇音同步,而不需要显式的人脸边界框,从而实现自然的嘴部运动,并支持逼真的多人对话,无需复杂的后期处理。

主要特性

  • 同步视频 + 音频生成:在单一生成步骤中创建同步的视听内容——无需单独的音频管道
  • 图像转视频转换:将任何静止图像转变为具有电影感运动、对话和上下文声音的动态内容
  • 自然语音合成:生成具有精确唇音同步和真实说话人身份的情感丰富的对话
  • 灵活的音频控制:使用特殊标签在提示中直接指定语音(<S>...<E>)和环境音(<AUDCAP>...<ENDAUDCAP>
  • 5 秒高质量片段:以 24 FPS 输出,支持多种宽高比(9:16、16:9、1:1)
  • 多说话人支持:自然处理多个声音和多轮对话
  • 100% 开源:Apache 许可证,自由探索、修改和集成

在基准评估中,Ovi 在音频质量、视频质量和音频视频同步指标方面表现出对竞争模型的明确优势,使开源能力显著接近 Veo 3 等前沿模型。

真实用例

短视频内容创作 将产品照片、角色插图或场景概念转变为社交媒体的吸引人视频片段。Ovi 添加背景音的能力——从降雨声到笑声——创建了适合 TikTok、Instagram Reels 和 YouTube Shorts 的情感深度。

角色动画 为数字角色、虚拟头像和虚拟人物注入生命力。该模型在以人物为中心的内容中表现出色,具有富有表现力的表演、自然的头部运动和真实的面部表情。

营销和广告 从静止产品图像或概念艺术创建引人注目的宣传视频。添加旁白、音效和环境音,无需单独的制作步骤。

故事讲述和叙事 为电影前期可视化、漫画改编或独立创意项目将故事板和插图转化为生命。每一帧都成为一个包含对话和氛围的迷你场景。

教育内容 将图表、插图和静态教育材料转变为具有旁白和支持音频的动态解释视频。

游戏开发 直接从概念艺术或游戏内截图生成过场动画、预告片和宣传内容。

开始在 WaveSpeedAI 上使用

在 WaveSpeedAI 上使用 Ovi 图像转视频很简单:

  1. 上传您的图像:提供将作为视频基础帧的参考图像
  2. 编写您的提示:描述所需的运动、风格和氛围。使用 <S>您的对话<E> 标签包含语音,使用 <AUDCAP>声音描述<ENDAUDCAP> 标签包含音效
  3. 设置您的种子:使用 -1 进行随机生成,或使用固定数字进行可重现的结果
  4. 生成:单击运行以创建您的 5 秒视听片段

以下是一个示例提示:

A wide shot of a medieval knight standing in the rain, sword planted 
into the ground, glowing with mystical energy.  
<S>I will defend this land until my last breath.<E>  
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>

仅需 $0.15 每 5 秒视频,Ovi 相比 Veo 3 的 $3.20 每 8 秒片段等替代方案提供了卓越的价值。

为什么选择 WaveSpeedAI?

在 WaveSpeedAI 上运行 Ovi 让您可以访问:

  • 无冷启动:您的生成立即开始,无需等待模型加载
  • 优化推理:我们的基础设施确保快速、可靠的生成时间
  • 简单 REST API:通过直接的 API 调用将 Ovi 集成到您的应用程序中
  • 平价定价:仅为生成的内容付费,透明且可预测的成本
  • 生产就绪:适用于原型制作和生产工作负载的企业级可靠性

总结

Character AI Ovi 图像转视频代表了 AI 视频生成的范式转变。通过将视频和音频合成统一为单一、连贯的过程,它消除了传统多阶段工作流的摩擦,同时提供突破开源 AI 可能边界的结果。

无论您是希望增强社交媒体形象的内容创建者、寻求动态宣传材料的营销人员,还是开发下一代创意工具的开发者,Ovi 都为真正沉浸式的视听内容创建提供了基础。

准备好让您的图像栩栩如生了吗? 立即在 WaveSpeedAI 上尝试 Character AI Ovi 图像转视频,体验 AI 驱动的视频生成的未来。