Character AI Ovi 圖像轉影片现已登陆WaveSpeedAI
免費試用 Character Ai Ovi Image To Video在 WaveSpeedAI 上推出 Character AI Ovi 圖像轉視頻
AI 視頻生成的世界進入了一個新時代。我們很高興地宣布 Character AI Ovi 圖像轉視頻 現已在 WaveSpeedAI 上推出——這是一個突破性的模型,可以將靜態圖像轉變為動態的視聽體驗,並在單一生成步驟中實現同步的視頻和音頻。
Ovi 代表了 AI 驅動的內容創作的重大飛躍。與傳統視頻生成模型不同,傳統模型生成無聲片段,需要單獨進行音頻工作,而 Ovi 同時生成視頻和音頻,創建與專業製作品質相媲美的沉浸式內容。
什麼是 Ovi?
Ovi 是由 Character AI 開發的類似 Veo-3 的圖像轉音頻視頻 (I2AV) 生成模型。該模型基於研究論文 “Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation”,是一個 110 億參數模型(50 億視覺 + 50 億音頻 + 10 億融合),採用革命性的雙骨幹架構,耦合兩個匹配的潛在擴散變壓器以實現無縫的視聽合成。
該模型從 Wan 2.2 的視頻骨幹和 MMAudio 的音頻編碼和解碼中汲取靈感,創建了一個統一的系統,消除了先生成無聲視頻再添加聲音的尷尬工作流程。無論您需要對話、音效、環境音頻還是音樂,Ovi 都能在一次生成中處理所有這些。
Ovi 的獨特之處在於其同步方法。該模型完全從數據中學習唇形同步,而不需要明確的面部邊界框,實現了自然的嘴部運動,並能夠實現逼真的多人對話,無需複雜的後期處理。
主要功能
- 同時生成視頻和音頻:在單一生成步驟中創建同步的視聽內容——無需單獨的音頻管道
- 圖像轉視頻轉換:通過電影般的運動、對話和語境化的聲音將任何靜態圖像變得生動
- 自然語音合成:生成情感豐富的對話,具有精確的唇形同步和真實的說話者身份
- 靈活的音頻控制:使用特殊標籤直接在提示中指定語音(
<S>...<E>)和環境聲音(<AUDCAP>...<ENDAUDCAP>) - 5 秒高品質片段:以 24 FPS 輸出,支持多種寬高比(9:16、16:9、1:1)
- 多說話者支持:自然處理多個聲音和多輪對話
- 100% 開源:採用 Apache 許可證,自由探索、修改和集成
在基準評估中,Ovi 在音頻品質、視頻品質和音視頻同步指標上表現出對競爭對手模型的明確偏好,使開源功能顯著接近 Veo 3 等前沿模型。
真實用例
短視頻內容創作 將產品照片、角色插圖或場景概念轉變為吸引人的視頻片段,用於社交媒體。Ovi 能夠添加語境化的聲音——從降雨到笑聲——創建適合 TikTok、Instagram Reels 和 YouTube Shorts 的情感深度。
角色動畫 為數字角色、化身和虛擬人物注入生命。該模型擅長以人為中心的內容,具有富有表現力的表演、自然的頭部運動和真實的面部表情。
營銷和廣告 從靜態產品圖像或概念藝術創建引人注目的宣傳視頻。添加旁白、音效和環境音頻,無需單獨的製作步驟。
敘事和故事講述 為電影前期可視化、漫畫改編或獨立創意項目將故事板和插圖變為生動。每一幀都變成一個完整的小場景,配有對話和氛圍。
教育內容 將圖表、插圖和靜態教育材料轉變為動態說明視頻,配有敘述和支持音頻。
遊戲開發 直接從概念藝術或遊戲內屏幕截圖生成過場動畫、預告片和宣傳內容。
在 WaveSpeedAI 上開始使用
在 WaveSpeedAI 上使用 Ovi 圖像轉視頻非常簡單:
- 上傳您的圖像:提供一個參考圖像,將用作視頻的基礎幀
- 編寫您的提示:描述所需的運動、風格和氛圍。使用
<S>Your dialogue here<E>標籤包括語音,使用<AUDCAP>Description of sounds<ENDAUDCAP>標籤包括音效 - 設置您的種子:使用
-1進行隨機生成,或使用固定數字進行可重現的結果 - 生成:點擊運行以創建您的 5 秒視聽片段
以下是一個示例提示:
A wide shot of a medieval knight standing in the rain, sword planted
into the ground, glowing with mystical energy.
<S>I will defend this land until my last breath.<E>
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>
僅僅以 $0.15 每 5 秒視頻 的價格,Ovi 與 Vevo 3 的 $3.20 每 8 秒片段等替代方案相比提供了卓越的價值。
為什麼選擇 WaveSpeedAI?
在 WaveSpeedAI 上運行 Ovi 可以讓您享受:
- 無冷啟動:您的生成立即開始,無需等待模型加載
- 優化推理:我們的基礎設施確保快速、可靠的生成時間
- 簡單的 REST API:使用簡明的 API 調用將 Ovi 集成到您的應用程序中
- 實惠的定價:只為您生成的內容付費,具有透明、可預測的成本
- 生產就緒:適用於原型設計和生產工作負載的企業級可靠性
結論
Character AI Ovi 圖像轉視頻代表了 AI 視頻生成的範式轉變。通過將視頻和音頻合成統一為一個連貫的過程,它消除了傳統多階段工作流程的摩擦,同時提供了推動開源 AI 可能性邊界的成果。
無論您是希望增強社交媒體存在的內容創作者、尋求動態宣傳材料的營銷人員,還是開發下一代創意工具的開發者,Ovi 都為真正沉浸式的視聽內容提供了基礎。
準備好讓您的圖像栩栩如生了嗎? 立即在 WaveSpeedAI 上試用 Character AI Ovi 圖像轉視頻並體驗 AI 驅動的視頻生成的未來。





