Character AI Ovi图像转视频现已登陆WaveSpeedAI

在 WaveSpeedAI 上推出 Character AI Ovi 图像转视频功能

AI 视频生成的世界已进入一个新时代。我们很高兴宣布 Character AI Ovi 图像转视频 现已在 WaveSpeedAI 上推出——这是一个突破性的模型，能够将静止图像转变为动态的视听体验，在单一生成步骤中同步生成视频和音频。

Ovi 代表了 AI 驱动内容创作的重大飞跃。与传统视频生成模型不同，传统模型只产生无声片段，需要单独进行音频处理，而 Ovi 可以同时生成视频和音频，创建与专业制作质量相媲美的沉浸式内容。

什么是 Ovi？

Ovi 是由 Character AI 开发的类似 Veo-3 的图像转音频视频（I2AV）生成模型。基于研究论文 “Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation”，这个 110 亿参数模型（5B 视觉 + 5B 音频 + 1B 融合）采用革命性的双骨干架构，耦合两个匹配的潜在扩散转换器以实现无缝的视听合成。

该模型从 Wan 2.2 的视频骨干和 MMAudio 的音频编码和解码中汲取灵感，创建了一个统一的系统，消除了先生成无声视频然后添加声音的尴尬工作流。无论您需要对话、音效、环境音还是音乐，Ovi 都能在一次传输中处理所有内容。

Ovi 的独特之处在于其同步处理方法。该模型纯粹从数据中学习唇音同步，而不需要显式的人脸边界框，从而实现自然的嘴部运动，并支持逼真的多人对话，无需复杂的后期处理。

主要特性

同步视频 + 音频生成：在单一生成步骤中创建同步的视听内容——无需单独的音频管道
图像转视频转换：将任何静止图像转变为具有电影感运动、对话和上下文声音的动态内容
自然语音合成：生成具有精确唇音同步和真实说话人身份的情感丰富的对话
灵活的音频控制：使用特殊标签在提示中直接指定语音（<S>...<E>）和环境音（<AUDCAP>...<ENDAUDCAP>）
5 秒高质量片段：以 24 FPS 输出，支持多种宽高比（9:16、16:9、1:1）
多说话人支持：自然处理多个声音和多轮对话
100% 开源：Apache 许可证，自由探索、修改和集成

在基准评估中，Ovi 在音频质量、视频质量和音频视频同步指标方面表现出对竞争模型的明确优势，使开源能力显著接近 Veo 3 等前沿模型。

真实用例

短视频内容创作 将产品照片、角色插图或场景概念转变为社交媒体的吸引人视频片段。Ovi 添加背景音的能力——从降雨声到笑声——创建了适合 TikTok、Instagram Reels 和 YouTube Shorts 的情感深度。

角色动画 为数字角色、虚拟头像和虚拟人物注入生命力。该模型在以人物为中心的内容中表现出色，具有富有表现力的表演、自然的头部运动和真实的面部表情。

营销和广告 从静止产品图像或概念艺术创建引人注目的宣传视频。添加旁白、音效和环境音，无需单独的制作步骤。

故事讲述和叙事 为电影前期可视化、漫画改编或独立创意项目将故事板和插图转化为生命。每一帧都成为一个包含对话和氛围的迷你场景。

教育内容 将图表、插图和静态教育材料转变为具有旁白和支持音频的动态解释视频。

游戏开发 直接从概念艺术或游戏内截图生成过场动画、预告片和宣传内容。

开始在 WaveSpeedAI 上使用

在 WaveSpeedAI 上使用 Ovi 图像转视频很简单：

上传您的图像：提供将作为视频基础帧的参考图像
编写您的提示：描述所需的运动、风格和氛围。使用 <S>您的对话<E> 标签包含语音，使用 <AUDCAP>声音描述<ENDAUDCAP> 标签包含音效
设置您的种子：使用 -1 进行随机生成，或使用固定数字进行可重现的结果
生成：单击运行以创建您的 5 秒视听片段

以下是一个示例提示：

A wide shot of a medieval knight standing in the rain, sword planted 
into the ground, glowing with mystical energy.  
<S>I will defend this land until my last breath.<E>  
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>

仅需 $0.15 每 5 秒视频，Ovi 相比 Veo 3 的 $3.20 每 8 秒片段等替代方案提供了卓越的价值。