← 部落格

InfiniteTalk Video-to-Video Multi現已登陸WaveSpeedAI

InfiniteTalk Video-to-Video Multi 能從影片與兩個音訊輸入,生成逼真的多角色唇形同步影片。支援 480p/720p 解析度、最長 10 分鐘,並具備全身一致性。提供即用型 REST 推理 API,性能卓越、無冷啟動延遲,定價親民。

2 min read
Wavespeed Ai Infinitetalk Video To Video Multi InfiniteTalk Video-to-Video Multi 能從影片與兩個音訊輸入,生成逼真的多角色唇形同步影片...
Try it

WaveSpeedAI 推出 InfiniteTalk Video-to-Video Multi:製作級多角色唇形同步

單角色唇形同步已令人印象深刻。多角色唇形同步則具有革命性意義。WaveSpeedAI 上的 InfiniteTalk Video-to-Video Multi 能夠接受任何包含兩個角色的影片,結合每個人的獨立音軌,並生成一段兩個角色均以製作級唇形同步、自然頭部動作和情感連貫面部表情說話的影片。

這是 InfiniteTalk 多角色模型的標準(高品質)版本,提供更高保真度的輸出,支援 480p 和 720p 解析度選項,以及相同的最長 10 分鐘時長。當視覺品質最為重要時——最終製作、客戶交付、發布內容——這就是您需要的模型。

什麼是 InfiniteTalk Video-to-Video Multi?

InfiniteTalk Video-to-Video Multi 是一款數位人 AI 模型,可生成唇形同步的多角色對話影片。它接受一段包含兩個可見角色的來源影片、兩個獨立音軌(每個角色各一個),以及可選的控制選項,如說話順序、遮罩區域和文字提示。

該模型遠不止於嘴部動作。它能生成全身協調性——與說話重音匹配的頭部傾斜、反映語氣的眉毛動作、對話輪換期間的細微姿態變化,以及說話與聆聽狀態之間的自然過渡。乍看之下,結果與專業製作的對話影片無從區別。

身份保留是其核心優勢。無論影片長度如何——從 5 秒片段到 10 分鐘對話——模型都能在每一幀中持續保持每個角色的面部身份和視覺風格。

主要功能

  • 製作級輸出:比 Fast 版本更高的保真度,提供 480p 和 720p 輸出的解析度選項。

  • 多角色精準同步:兩個角色、兩個音軌、完美同步——每個角色的唇部動作、表情和肢體語言均與其特定音頻匹配。

  • 全身協調性:頭部動作、面部表情、眼部動作和姿態均自然地回應說話模式和情感內容。

  • 身份保留:無論影片長度如何,每一幀都保持一致的面部身份和視覺風格。

  • 靈活的說話順序:同時(「meanwhile」)、由左至右或由右至左的說話模式,以匹配任何對話結構。

  • 遮罩控制:可選的遮罩圖像可精確定義哪些區域產生動畫,對輸出提供精細控制。

  • 長片支援:支援最長 10 分鐘(600 秒)的影片——足以用於採訪、對話和教育內容。

  • 解析度選項:根據需求在 480p(更快、更便宜)和 720p(更高品質)之間選擇。

實際應用場景

專業影片製作

為廣告、企業影片和敘事內容創建可直接使用的對話場景。標準模型的更高保真度使其適用於面向客戶和發布的作品。

採訪與對話內容

從音頻錄音生成逼真的採訪影片。兩個從未在同一房間的人可以看起來正在進行自然的面對面對話。

多語言配音

將現有的雙人對話內容配音成任何語言,並帶有自然的唇形同步。兩個角色在保持原有視覺身份的同時,對新語言進行唇形同步。

數位人體驗

為客戶服務、教育或娛樂應用創建與兩個 AI 角色的互動對話體驗。

播客轉影片

將音頻播客轉換為視覺內容。上傳兩位主持人的影片模板,並輸入每期節目的音頻,即可生成每期節目的影片版本。

培訓與合規影片

無需安排演員或預訂攝影棚,即可製作多角色對話培訓影片。只需錄製新音頻即可更新內容。

在 WaveSpeedAI 上開始使用

  1. 前往模型頁面:訪問 WaveSpeedAI 上的 InfiniteTalk Video-to-Video Multi

  2. 上傳影片:提供一段包含兩個清晰可見角色的影片。

  3. 添加音軌:分別上傳左側和右側角色的音頻文件。

  4. 選擇設定:選擇解析度(480p 或 720p)、說話順序,以及可選的遮罩/提示。

  5. 生成:獲得您的製作級唇形同步多角色影片。

定價

解析度每秒5秒(最低)1分鐘10分鐘(最長)
480p$0.03$0.15$1.80$18.00
720p$0.06$0.30$3.60$36.00

對於預算敏感或高量工作流程,請考慮成本降低 50% 的 InfiniteTalk Fast 版本。

為何選擇 WaveSpeedAI?

  • 無冷啟動延遲:處理立即開始——無需排隊,無需基礎設施啟動
  • 穩定品質:無論平台負載如何,均可提供可靠的高保真輸出
  • 簡單的 REST API:影片 + 兩個音軌 = 專業唇形同步對話
  • 靈活定價:在 Fast(預算)和 Standard(品質)版本之間選擇

最佳效果技巧

  • 確保兩個角色在整個影片中清晰可見,面部無遮擋
  • 為每個角色使用乾淨、無噪音的音頻錄音
  • 正面或略帶角度的鏡頭能產生最自然的唇形同步
  • 將說話順序與對話結構匹配——對於重疊對話使用「meanwhile」
  • 當需要防止特定區域產生動畫時(例如保持背景元素靜止),請使用遮罩功能
  • 請勿上傳全覆蓋遮罩圖像——這將產生黑色輸出
  • 對於草稿和快速迭代,請先使用 Fast 版本,然後在最終版本時切換到 Standard

多角色對話的業界標準

WaveSpeedAI 上的 InfiniteTalk Video-to-Video Multi 為 AI 驅動的多角色唇形同步設立了標竿。當您的內容需要最高保真度——自然表情、精確同步、一致身份——這就是能夠實現的模型。

立即試用 InfiniteTalk Video-to-Video Multi,從任何影片創建製作級多角色對話。