MMAudio V2 现已登陆WaveSpeedAI

MMAudio V2 现已登陆WaveSpeedAI

MMAudio V2 現已在 WaveSpeedAI 上線:適用於影片和文字輸入的多模態音訊生成

MMAudio V2 是一個尖端模型,能夠從影片和文字輸入生成高品質、同步的音訊。這項進展為多媒體內容創作開啟了新的可能性,提升了生成媒體的真實感和沉浸感

關於 MMAudio V2?

MMAudio V2 是一個多模態音訊生成模型,能夠合成與視覺內容或文字描述無縫對齊的音訊。無論您是想為影片添加逼真的音效,還是根據文字提示生成音訊,MMAudio V2 都能精確而高品質地交付。

主要功能

  • 多模態輸入支援: 接受影片和文字輸入,為音訊生成任務提供靈活性。
  • 高品質音訊輸出: 生成採樣率為 44.1kHz 的音訊,確保清晰度和細節。
  • 同步的音訊-視覺輸出: 利用條件同步模組來精確對齊音訊與影片幀。
  • 高效能表現: 在約 1.23 秒內生成 8 秒的音訊片段,促進快速內容創作。
  • 緊湊的模型大小: MMAudio V2 僅具有 1.57 億個參數,在不損害品質的情況下優化了效能。

技術概觀

MMAudio V2 採用新穎的多模態聯合訓練框架,整合大規模文字-音訊資料與影片輸入,以增強語義對齊和音訊-視覺同步。該模型的架構包括:

  • 流量預測網路: 根據輸入模態預測音訊流量。
  • 視覺特徵提取器: 結合 Synchformer 和 CLIP 模型以提取有意義的視覺特徵。
  • 變分自編碼器 (VAE): 處理音訊資料的潛在表示。
  • 聲碼器: 將潛在音訊表示轉換為波形輸出。

這些組件協調運作,以產生不僅品質高,而且與輸入資料在語義上相關的音訊。

應用

MMAudio V2 的功能適用於多種應用:

  • 影片後期製作: 為無聲影片添加逼真的音景,或增強現有音訊軌道。
  • 遊戲開發: 生成沉浸式音效,以回應遊戲事件或環境。
  • 虛擬實境 (VR) 和擴增實境 (AR): 建立可根據使用者互動進行調整的動態音訊體驗。
  • 內容創作: 直接從文字劇本製作播客、有聲書或其他音訊內容。

案例研究

開始使用

若要探索 MMAudio V2 的功能,請造訪以下 WaveSpeedAI 模型商店,並使用影片或文字輸入進行 MMAudio V2 的實驗。

Github 和其 研究論文 上瞭解更多有關 MMAudio V2 的資訊。