Character AI Ovi 圖像轉影片现已登陆WaveSpeedAI

免費試用 Character Ai Ovi Image To Video

在 WaveSpeedAI 上推出 Character AI Ovi 圖像轉視頻

AI 視頻生成的世界進入了一個新時代。我們很高興地宣布 Character AI Ovi 圖像轉視頻 現已在 WaveSpeedAI 上推出——這是一個突破性的模型,可以將靜態圖像轉變為動態的視聽體驗,並在單一生成步驟中實現同步的視頻和音頻。

Ovi 代表了 AI 驅動的內容創作的重大飛躍。與傳統視頻生成模型不同,傳統模型生成無聲片段,需要單獨進行音頻工作,而 Ovi 同時生成視頻和音頻,創建與專業製作品質相媲美的沉浸式內容。

什麼是 Ovi?

Ovi 是由 Character AI 開發的類似 Veo-3 的圖像轉音頻視頻 (I2AV) 生成模型。該模型基於研究論文 “Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation”,是一個 110 億參數模型(50 億視覺 + 50 億音頻 + 10 億融合),採用革命性的雙骨幹架構,耦合兩個匹配的潛在擴散變壓器以實現無縫的視聽合成。

該模型從 Wan 2.2 的視頻骨幹和 MMAudio 的音頻編碼和解碼中汲取靈感,創建了一個統一的系統,消除了先生成無聲視頻再添加聲音的尷尬工作流程。無論您需要對話、音效、環境音頻還是音樂,Ovi 都能在一次生成中處理所有這些。

Ovi 的獨特之處在於其同步方法。該模型完全從數據中學習唇形同步,而不需要明確的面部邊界框,實現了自然的嘴部運動,並能夠實現逼真的多人對話,無需複雜的後期處理。

主要功能

  • 同時生成視頻和音頻:在單一生成步驟中創建同步的視聽內容——無需單獨的音頻管道
  • 圖像轉視頻轉換:通過電影般的運動、對話和語境化的聲音將任何靜態圖像變得生動
  • 自然語音合成:生成情感豐富的對話,具有精確的唇形同步和真實的說話者身份
  • 靈活的音頻控制:使用特殊標籤直接在提示中指定語音(<S>...<E>)和環境聲音(<AUDCAP>...<ENDAUDCAP>
  • 5 秒高品質片段:以 24 FPS 輸出,支持多種寬高比(9:16、16:9、1:1)
  • 多說話者支持:自然處理多個聲音和多輪對話
  • 100% 開源:採用 Apache 許可證,自由探索、修改和集成

在基準評估中,Ovi 在音頻品質、視頻品質和音視頻同步指標上表現出對競爭對手模型的明確偏好,使開源功能顯著接近 Veo 3 等前沿模型。

真實用例

短視頻內容創作 將產品照片、角色插圖或場景概念轉變為吸引人的視頻片段,用於社交媒體。Ovi 能夠添加語境化的聲音——從降雨到笑聲——創建適合 TikTok、Instagram Reels 和 YouTube Shorts 的情感深度。

角色動畫 為數字角色、化身和虛擬人物注入生命。該模型擅長以人為中心的內容,具有富有表現力的表演、自然的頭部運動和真實的面部表情。

營銷和廣告 從靜態產品圖像或概念藝術創建引人注目的宣傳視頻。添加旁白、音效和環境音頻,無需單獨的製作步驟。

敘事和故事講述 為電影前期可視化、漫畫改編或獨立創意項目將故事板和插圖變為生動。每一幀都變成一個完整的小場景,配有對話和氛圍。

教育內容 將圖表、插圖和靜態教育材料轉變為動態說明視頻,配有敘述和支持音頻。

遊戲開發 直接從概念藝術或遊戲內屏幕截圖生成過場動畫、預告片和宣傳內容。

在 WaveSpeedAI 上開始使用

在 WaveSpeedAI 上使用 Ovi 圖像轉視頻非常簡單:

  1. 上傳您的圖像:提供一個參考圖像,將用作視頻的基礎幀
  2. 編寫您的提示:描述所需的運動、風格和氛圍。使用 <S>Your dialogue here<E> 標籤包括語音,使用 <AUDCAP>Description of sounds<ENDAUDCAP> 標籤包括音效
  3. 設置您的種子:使用 -1 進行隨機生成,或使用固定數字進行可重現的結果
  4. 生成:點擊運行以創建您的 5 秒視聽片段

以下是一個示例提示:

A wide shot of a medieval knight standing in the rain, sword planted 
into the ground, glowing with mystical energy.  
<S>I will defend this land until my last breath.<E>  
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>

僅僅以 $0.15 每 5 秒視頻 的價格,Ovi 與 Vevo 3 的 $3.20 每 8 秒片段等替代方案相比提供了卓越的價值。

為什麼選擇 WaveSpeedAI?

在 WaveSpeedAI 上運行 Ovi 可以讓您享受:

  • 無冷啟動:您的生成立即開始,無需等待模型加載
  • 優化推理:我們的基礎設施確保快速、可靠的生成時間
  • 簡單的 REST API:使用簡明的 API 調用將 Ovi 集成到您的應用程序中
  • 實惠的定價:只為您生成的內容付費,具有透明、可預測的成本
  • 生產就緒:適用於原型設計和生產工作負載的企業級可靠性

結論

Character AI Ovi 圖像轉視頻代表了 AI 視頻生成的範式轉變。通過將視頻和音頻合成統一為一個連貫的過程,它消除了傳統多階段工作流程的摩擦,同時提供了推動開源 AI 可能性邊界的成果。

無論您是希望增強社交媒體存在的內容創作者、尋求動態宣傳材料的營銷人員,還是開發下一代創意工具的開發者,Ovi 都為真正沉浸式的視聽內容提供了基礎。

準備好讓您的圖像栩栩如生了嗎? 立即在 WaveSpeedAI 上試用 Character AI Ovi 圖像轉視頻並體驗 AI 驅動的視頻生成的未來。