InfiniteTalk Video-to-Video Multi現已登陸WaveSpeedAI
InfiniteTalk Video-to-Video Multi 能從影片與兩個音訊輸入,生成逼真的多角色唇形同步影片。支援 480p/720p 解析度、最長 10 分鐘,並具備全身一致性。提供即用型 REST 推理 API,性能卓越、無冷啟動延遲,定價親民。
WaveSpeedAI 推出 InfiniteTalk Video-to-Video Multi:製作級多角色唇形同步
單角色唇形同步已令人印象深刻。多角色唇形同步則具有革命性意義。WaveSpeedAI 上的 InfiniteTalk Video-to-Video Multi 能夠接受任何包含兩個角色的影片,結合每個人的獨立音軌,並生成一段兩個角色均以製作級唇形同步、自然頭部動作和情感連貫面部表情說話的影片。
這是 InfiniteTalk 多角色模型的標準(高品質)版本,提供更高保真度的輸出,支援 480p 和 720p 解析度選項,以及相同的最長 10 分鐘時長。當視覺品質最為重要時——最終製作、客戶交付、發布內容——這就是您需要的模型。
什麼是 InfiniteTalk Video-to-Video Multi?
InfiniteTalk Video-to-Video Multi 是一款數位人 AI 模型,可生成唇形同步的多角色對話影片。它接受一段包含兩個可見角色的來源影片、兩個獨立音軌(每個角色各一個),以及可選的控制選項,如說話順序、遮罩區域和文字提示。
該模型遠不止於嘴部動作。它能生成全身協調性——與說話重音匹配的頭部傾斜、反映語氣的眉毛動作、對話輪換期間的細微姿態變化,以及說話與聆聽狀態之間的自然過渡。乍看之下,結果與專業製作的對話影片無從區別。
身份保留是其核心優勢。無論影片長度如何——從 5 秒片段到 10 分鐘對話——模型都能在每一幀中持續保持每個角色的面部身份和視覺風格。
主要功能
-
製作級輸出:比 Fast 版本更高的保真度,提供 480p 和 720p 輸出的解析度選項。
-
多角色精準同步:兩個角色、兩個音軌、完美同步——每個角色的唇部動作、表情和肢體語言均與其特定音頻匹配。
-
全身協調性:頭部動作、面部表情、眼部動作和姿態均自然地回應說話模式和情感內容。
-
身份保留:無論影片長度如何,每一幀都保持一致的面部身份和視覺風格。
-
靈活的說話順序:同時(「meanwhile」)、由左至右或由右至左的說話模式,以匹配任何對話結構。
-
遮罩控制:可選的遮罩圖像可精確定義哪些區域產生動畫,對輸出提供精細控制。
-
長片支援:支援最長 10 分鐘(600 秒)的影片——足以用於採訪、對話和教育內容。
-
解析度選項:根據需求在 480p(更快、更便宜)和 720p(更高品質)之間選擇。
實際應用場景
專業影片製作
為廣告、企業影片和敘事內容創建可直接使用的對話場景。標準模型的更高保真度使其適用於面向客戶和發布的作品。
採訪與對話內容
從音頻錄音生成逼真的採訪影片。兩個從未在同一房間的人可以看起來正在進行自然的面對面對話。
多語言配音
將現有的雙人對話內容配音成任何語言,並帶有自然的唇形同步。兩個角色在保持原有視覺身份的同時,對新語言進行唇形同步。
數位人體驗
為客戶服務、教育或娛樂應用創建與兩個 AI 角色的互動對話體驗。
播客轉影片
將音頻播客轉換為視覺內容。上傳兩位主持人的影片模板,並輸入每期節目的音頻,即可生成每期節目的影片版本。
培訓與合規影片
無需安排演員或預訂攝影棚,即可製作多角色對話培訓影片。只需錄製新音頻即可更新內容。
在 WaveSpeedAI 上開始使用
-
上傳影片:提供一段包含兩個清晰可見角色的影片。
-
添加音軌:分別上傳左側和右側角色的音頻文件。
-
選擇設定:選擇解析度(480p 或 720p)、說話順序,以及可選的遮罩/提示。
-
生成:獲得您的製作級唇形同步多角色影片。
定價
| 解析度 | 每秒 | 5秒(最低) | 1分鐘 | 10分鐘(最長) |
|---|---|---|---|---|
| 480p | $0.03 | $0.15 | $1.80 | $18.00 |
| 720p | $0.06 | $0.30 | $3.60 | $36.00 |
對於預算敏感或高量工作流程,請考慮成本降低 50% 的 InfiniteTalk Fast 版本。
為何選擇 WaveSpeedAI?
- 無冷啟動延遲:處理立即開始——無需排隊,無需基礎設施啟動
- 穩定品質:無論平台負載如何,均可提供可靠的高保真輸出
- 簡單的 REST API:影片 + 兩個音軌 = 專業唇形同步對話
- 靈活定價:在 Fast(預算)和 Standard(品質)版本之間選擇
最佳效果技巧
- 確保兩個角色在整個影片中清晰可見,面部無遮擋
- 為每個角色使用乾淨、無噪音的音頻錄音
- 正面或略帶角度的鏡頭能產生最自然的唇形同步
- 將說話順序與對話結構匹配——對於重疊對話使用「meanwhile」
- 當需要防止特定區域產生動畫時(例如保持背景元素靜止),請使用遮罩功能
- 請勿上傳全覆蓋遮罩圖像——這將產生黑色輸出
- 對於草稿和快速迭代,請先使用 Fast 版本,然後在最終版本時切換到 Standard
多角色對話的業界標準
WaveSpeedAI 上的 InfiniteTalk Video-to-Video Multi 為 AI 驅動的多角色唇形同步設立了標竿。當您的內容需要最高保真度——自然表情、精確同步、一致身份——這就是能夠實現的模型。
立即試用 InfiniteTalk Video-to-Video Multi,從任何影片創建製作級多角色對話。

