Character AI Ovi 圖像轉影片现已登陆WaveSpeedAI

在 WaveSpeedAI 上推出 Character AI Ovi 圖像轉視頻

AI 視頻生成的世界進入了一個新時代。我們很高興地宣布 Character AI Ovi 圖像轉視頻 現已在 WaveSpeedAI 上推出——這是一個突破性的模型，可以將靜態圖像轉變為動態的視聽體驗，並在單一生成步驟中實現同步的視頻和音頻。

Ovi 代表了 AI 驅動的內容創作的重大飛躍。與傳統視頻生成模型不同，傳統模型生成無聲片段，需要單獨進行音頻工作，而 Ovi 同時生成視頻和音頻，創建與專業製作品質相媲美的沉浸式內容。

什麼是 Ovi？

Ovi 是由 Character AI 開發的類似 Veo-3 的圖像轉音頻視頻 (I2AV) 生成模型。該模型基於研究論文 “Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation”，是一個 110 億參數模型（50 億視覺 + 50 億音頻 + 10 億融合），採用革命性的雙骨幹架構，耦合兩個匹配的潛在擴散變壓器以實現無縫的視聽合成。

該模型從 Wan 2.2 的視頻骨幹和 MMAudio 的音頻編碼和解碼中汲取靈感，創建了一個統一的系統，消除了先生成無聲視頻再添加聲音的尷尬工作流程。無論您需要對話、音效、環境音頻還是音樂，Ovi 都能在一次生成中處理所有這些。

Ovi 的獨特之處在於其同步方法。該模型完全從數據中學習唇形同步，而不需要明確的面部邊界框，實現了自然的嘴部運動，並能夠實現逼真的多人對話，無需複雜的後期處理。

主要功能

同時生成視頻和音頻：在單一生成步驟中創建同步的視聽內容——無需單獨的音頻管道
圖像轉視頻轉換：通過電影般的運動、對話和語境化的聲音將任何靜態圖像變得生動
自然語音合成：生成情感豐富的對話，具有精確的唇形同步和真實的說話者身份
靈活的音頻控制：使用特殊標籤直接在提示中指定語音（<S>...<E>）和環境聲音（<AUDCAP>...<ENDAUDCAP>）
5 秒高品質片段：以 24 FPS 輸出，支持多種寬高比（9:16、16:9、1:1）
多說話者支持：自然處理多個聲音和多輪對話
100% 開源：採用 Apache 許可證，自由探索、修改和集成

在基準評估中，Ovi 在音頻品質、視頻品質和音視頻同步指標上表現出對競爭對手模型的明確偏好，使開源功能顯著接近 Veo 3 等前沿模型。

真實用例

短視頻內容創作 將產品照片、角色插圖或場景概念轉變為吸引人的視頻片段，用於社交媒體。Ovi 能夠添加語境化的聲音——從降雨到笑聲——創建適合 TikTok、Instagram Reels 和 YouTube Shorts 的情感深度。

角色動畫 為數字角色、化身和虛擬人物注入生命。該模型擅長以人為中心的內容，具有富有表現力的表演、自然的頭部運動和真實的面部表情。

營銷和廣告 從靜態產品圖像或概念藝術創建引人注目的宣傳視頻。添加旁白、音效和環境音頻，無需單獨的製作步驟。

敘事和故事講述 為電影前期可視化、漫畫改編或獨立創意項目將故事板和插圖變為生動。每一幀都變成一個完整的小場景，配有對話和氛圍。

教育內容 將圖表、插圖和靜態教育材料轉變為動態說明視頻，配有敘述和支持音頻。

遊戲開發 直接從概念藝術或遊戲內屏幕截圖生成過場動畫、預告片和宣傳內容。

在 WaveSpeedAI 上開始使用

在 WaveSpeedAI 上使用 Ovi 圖像轉視頻非常簡單：

上傳您的圖像：提供一個參考圖像，將用作視頻的基礎幀
編寫您的提示：描述所需的運動、風格和氛圍。使用 <S>Your dialogue here<E> 標籤包括語音，使用 <AUDCAP>Description of sounds<ENDAUDCAP> 標籤包括音效
設置您的種子：使用 -1 進行隨機生成，或使用固定數字進行可重現的結果
生成：點擊運行以創建您的 5 秒視聽片段

以下是一個示例提示：

A wide shot of a medieval knight standing in the rain, sword planted 
into the ground, glowing with mystical energy.  
<S>I will defend this land until my last breath.<E>  
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>

僅僅以 $0.15 每 5 秒視頻 的價格，Ovi 與 Vevo 3 的 $3.20 每 8 秒片段等替代方案相比提供了卓越的價值。