← 部落格

InfiniteTalk Fast Video-to-Video Multi 現已登陸WaveSpeedAI

InfiniteTalk Fast 多角色唇形同步技術,可將影片與兩段音軌轉換為逼真的對話或演唱影片。比標準方案便宜50%,最長支援10分鐘。即用型REST推論API,效能卓越,無冷啟動,定價實惠。

1 min read
Wavespeed Ai Infinitetalk Fast Video To Video Multi InfiniteTalk Fast 多角色唇形同步技術,可將影片與兩段音軌轉換為逼真的對話或演唱影片。比標準方案便宜50...
Try it

WaveSpeedAI 推出 InfiniteTalk Fast Video-to-Video Multi:以半價實現多角色唇形同步

製作包含多個角色的逼真對話影片,傳統上需要昂貴的動態捕捉設備或繁瑣的手動動畫製作。WaveSpeedAI 上的 InfiniteTalk Fast Video-to-Video Multi 徹底改變了成本結構——以比標準版本低 50% 的價格,生成完美唇形同步的多角色對話影片,處理速度更快,且支援最長 10 分鐘的影片。

上傳一段包含兩個可見角色的影片,分別提供每個角色的音軌,即可獲得一段兩個角色都能自然說話、唇形精確同步、頭部動作逼真、面部表情連貫的影片。

什麼是 InfiniteTalk Fast Video-to-Video Multi?

InfiniteTalk Fast 是 WaveSpeedAI InfiniteTalk 多角色唇形同步模型的速度優化版本。它接受一段包含兩個角色的來源影片,為每個角色配對各自的音軌,並生成一段讓兩個角色自然說話或演唱各自音頻的新影片。

「Fast」版本在保持優異視覺品質的同時,優先考量處理速度與成本效益——非常適合大量生產工作流程、快速原型製作,以及不需要最高保真度的內容。

除了基本的唇部動作外,該模型還能生成全身協調效果:頭部動作與說話重點相符、面部表情反映情感基調、姿態變化與對話動態一致。結果呈現的是自然對話,而非僵硬的嘴部動作。

主要功能

  • 多角色唇形同步:同時為兩個角色同步唇部動作,每個角色各有獨立音軌。

  • 節省 50% 成本:比標準 InfiniteTalk 版本便宜一半,且處理速度更快——非常適合大量生產。

  • 靈活的說話順序:可從三種說話順序中選擇——同時說話(「meanwhile」)、由左至右,或由右至左——以符合場景的對話結構。

  • 全身動作協調:除唇部外,模型還能生成匹配的頭部動作、面部表情和姿態變化,呈現自然的對話效果。

  • 長片段支援:可處理最長 10 分鐘(600 秒)的影片,適用於完整訪談、播客視覺化及長篇對話場景。

  • 可選遮罩控制:使用遮罩圖片精確定義影片中哪些區域需要動畫效果,對輸出結果進行精確控制。

  • 場景引導:使用文字提示詞來引導角色行為和場景構圖。

實際應用場景

播客與訪談視覺化

將純音頻的播客和訪談轉化為引人入勝的影片內容。上傳兩位主持人坐在桌旁的影片,提供各自的音軌,即可生成整段對話完美同步唇形的視覺版本。

大規模社群媒體內容製作

快速且經濟地為社群平台製作多角色對話影片。快速的處理速度和較低的成本,使每天製作數十個對話影片成為可能。

多語言內容配音

取得現有的雙人對話影片,將音頻替換為任何語言的翻譯版本。兩個角色都能自然地與新語言的唇形同步。

電子學習與培訓

無需排期或拍攝,即可為教育內容創建講師對話場景。兩位虛擬講師可透過自然的對話形式講解概念。

快速原型製作

在投入使用更高品質的標準版本之前,快速測試對話場景和角色互動。使用 Fast 版本進行草稿和審核。

音樂影片

製作雙人演唱表演,讓兩個角色演唱各自的部分,同時呈現同步的唇部和身體動作。

在 WaveSpeedAI 上開始使用

  1. 前往模型頁面:訪問 WaveSpeedAI 上的 InfiniteTalk Fast Video-to-Video Multi

  2. 上傳影片:提供一段包含兩個可見角色的影片。

  3. 添加音軌:分別上傳左側和右側角色的音頻檔案。

  4. 設定說話順序:選擇「meanwhile」(同時)、「left_right」或「right_left」。

  5. 生成:獲取唇形同步的多角色影片。

定價

時長費用
5 秒(最短)$0.075
30 秒$0.45
1 分鐘$0.90
5 分鐘$4.50
10 分鐘(最長)$9.00

以每秒 $0.015 的價格,一分鐘完整的多角色唇形同步對話影片費用不到一美元。

為何選擇 WaveSpeedAI?

  • 無冷啟動時間:處理立即開始
  • 快速交付:針對快速內容生產進行速度優化
  • 簡單的 REST API:影片 + 兩個音頻檔案 = 唇形同步輸出
  • 按使用量付費:只需為生成的秒數付費

獲得最佳效果的技巧

  • 確保兩個角色在來源影片中清晰可見,遮擋最小化
  • 為每個角色使用背景雜音最少的乾淨音軌
  • 選擇適當的說話順序以符合對話結構
  • 請勿將完整圖片作為遮罩上傳——這將導致黑色輸出
  • 使用 API 時,確保所有檔案 URL 可公開訪問
  • 如需最高品質,最終製作請使用標準版 InfiniteTalk Video-to-Video Multi

快速、經濟的多角色對話

WaveSpeedAI 上的 InfiniteTalk Fast Video-to-Video Multi 讓大量工作流程中的多角色唇形同步變得觸手可及。無論您是在視覺化播客、大規模製作社群內容,還是原型設計對話場景,這個模型都能以半價提供逼真的效果。

立即試用 InfiniteTalk Fast,讓您的多角色對話栩栩如生。