← 部落格

WaveSpeedAI LTX 2.3 LipSync 現已登陸WaveSpeedAI

LTX-2.3 Lipsync 能根據音頻生成帶有同步唇型動作與自然臉部表情的說話人物影片。採用基於 DiT 的架構構建

2 min read
Wavespeed Ai Ltx.2.3 Lipsync
Wavespeed Ai Ltx.2.3 Lipsync LTX-2.3 Lipsync 能根據音頻生成帶有同步唇型動作與自然臉部表情的說話人物影片。採用基於 DiT 的架構構建...
Try it
WaveSpeedAI LTX 2.3 LipSync 現已登陸WaveSpeedAI

新一代 AI 唇型同步技術正式登場:LTX-2.3 Lipsync

從音訊生成逼真的說話人物影片,從未如此簡單——效果也從未如此出色。我們很高興宣布 LTX-2.3 Lipsync 現已在 WaveSpeedAI 上線,這是 Lightricks 音訊驅動影片生成模型的最新進化版本。基於升級後的 LTX-2.3 DiT 架構,這個模型相較於前一代,在畫面清晰度、唇型同步精準度及音視訊對齊品質上均有顯著提升。

無論您是要為企業培訓打造虛擬主持人、將行銷影片本地化為數十種語言,還是將播客音訊轉換為吸引人的影片內容,LTX-2.3 Lipsync 都能透過簡單的 API 呼叫實現——無冷啟動延遲,每次生成起價僅 $0.10。

什麼是 LTX-2.3 Lipsync?

LTX-2.3 Lipsync 是一款先進的 AI 模型,能從音訊檔案及可選的參考人像圖片生成說話人物影片。輸入一段語音錄音,它便會產出一段唇型動作精準同步、頭部動作自然、面部表情符合語境的影片。

該模型建立在 Lightricks 的 LTX-2.3 基礎架構之上——一種在統一流程中同時生成影片與音訊的擴散變換器(DiT)架構。與舊式唇型同步方案不同,後者僅是在後製階段將嘴部動畫疊加到靜態臉部上,LTX-2.3 能深入理解語音與視覺動作之間的內在關聯。其結果不只是讓嘴型配合音素,更能捕捉微妙的頭部傾斜、眉毛動作和表情變化,讓人物說話看起來自然真實。

2.3 版本引入了重新設計的 VAE,能產生更清晰的細節與更真實的質感;改進的動作一致性消除了舊版模型中靜止或抖動的瑕疵;以及門控注意力文字連接器,以實現更好的提示詞遵循效果。這些並非微幅調整——而是在每一幀畫面中都能看見的顯著品質提升。

主要功能

  • 改進的音視訊對齊:升級後的架構在跨語言和不同說話風格下,均能提供更精準的唇型同步與更乾淨的音素匹配
  • 更清晰的視覺品質:全新 VAE 在整個影片中產生更清晰的面部特徵、更真實的膚質紋理及更乾淨的邊緣
  • 音訊驅動生成:上傳音訊檔案,模型自動處理所有細節——唇型同步、頭部動作、眨眼和面部表情
  • 可選參考圖片:提供人像圖片以定義說話者的外觀,或讓模型使用預設值自動生成
  • 靈活的解析度選擇:480p 快速迭代、720p 平衡品質,或 1080p 用於可上線的輸出
  • 自動時長匹配:影片長度自動配合音訊輸入,支援 5 至 20 秒的片段
  • 提示詞引導風格:使用可選文字提示詞來影響生成影片的面部表情、光線效果和整體風格

實際應用場景

行銷與品牌內容

AI 說話人物影片正在改變行銷團隊的運作方式。Stellantis Financial Services 和 Sonesta Hotels 等企業已報告,使用 AI 生成主持人後,影片製作成本降低了 60 至 80%。透過 LTX-2.3 Lipsync,您可以為產品發布、社群媒體活動和個人化推廣創作一致的代言人影片——然後以新語言重新生成,無需重新拍攝任何一幀。

企業培訓與線上學習

企業學習市場正快速採用 AI 影片來製作可擴展的培訓內容。LTX-2.3 Lipsync 讓教學設計師僅憑腳本就能製作由主持人帶領的培訓影片。只需重新錄製音訊即可更新課程內容——無需租借攝影棚、無需協調排程、無需生產延誤。一張參考圖片就能成為整個培訓課程的一致形象代言。

內容本地化與配音

全球企業需要多語言內容。傳統配音費時費力。透過 LTX-2.3 Lipsync,您可以取用任何語言的現有音軌,並生成匹配該語言準確唇型動作的說話人物影片。模型自動處理不同語言之間的嘴型和語音模式差異。

播客與音訊轉影片

影片在社群平台上的表現始終優於純音訊內容。將播客片段、旁白或配音錄音轉換為吸引眼球的說話人物影片,在動態消息中抓住用戶注意力。這對於將長篇音訊內容重新包裝為 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短影片尤其有價值。

無障礙應用

為聽障觀眾生成視覺語音內容、製作具有清晰視覺語音提示的解說影片,或為以音訊為主的教育內容製作輔助視覺素材。

在 WaveSpeedAI 上開始使用

只需幾行程式碼,即可將 LTX-2.3 Lipsync 整合到您的工作流程中:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/lipsync",
    {
        "audio": "https://your-audio-url.com/speech.mp3",
        "image": "https://your-image-url.com/portrait.jpg",
        "resolution": "720p"
    },
)

print(output["outputs"][0])  # 輸出影片 URL

API 參數說明如下:

  • audio(必填):音訊檔案的 URL——這驅動生成過程並決定影片長度
  • image(選填):定義說話者外觀的參考人像 URL
  • prompt(選填):用於引導表情風格和視覺基調的文字描述
  • resolution(選填):480p、720p(預設)或 1080p

透明且實惠的定價

定價依音訊時長與解析度計算:

解析度5 秒10 秒15 秒20 秒
480p$0.10$0.20$0.30$0.40
720p$0.15$0.30$0.45$0.60
1080p$0.20$0.40$0.60$0.80

無需訂閱,無最低消費門檻。只需為您生成的內容付費。

最佳效果使用技巧

  1. 從 480p 開始:以最低解析度迭代調整您的音訊和參考圖片,快速找到理想效果,然後再以 720p 或 1080p 渲染最終版本。

  2. 使用乾淨的音訊:背景雜音少的清晰語音能產生最佳的唇型同步精準度。提交前請先對含有雜音的錄音進行預處理。

  3. 選擇正面朝向的人像:臉部清晰可見、表情自然、光線良好的參考圖片能產生最自然的效果。

  4. 透過提示詞引導:使用可選的 prompt 參數來影響表情和風格——例如「溫暖的微笑、專業的光線效果」或「嚴肅的語氣、直視鏡頭」。

  5. 分段處理較長內容:對於超過 20 秒的內容,請生成多個片段,然後在後製中拼接。每段保持在 20 秒以內以確保最佳品質。

為什麼選擇 WaveSpeedAI?

在 WaveSpeedAI 上運行 LTX-2.3 Lipsync,您將獲得在正式環境中至關重要的基礎架構優勢:

  • 無冷啟動:請求立即開始處理——無需等待 GPU 預熱
  • 快速推理:優化的服務基礎架構快速交付結果,支援快速迭代
  • 簡單的 REST API:以最少的整合工作,將說話人物生成功能加入任何應用程式
  • 可預測的費用:透明的按次計費,無隱藏費用

立即開始構建

LTX-2.3 Lipsync 代表了音訊驅動影片生成品質的重大飛躍。改進的視覺保真度、更精準的唇型同步,以及提示詞引導生成的實用靈活性,使其成為目前透過 API 可用的最強大唇型同步模型之一。

準備好創建您的第一個說話人物影片了嗎?在 WaveSpeedAI 上試用 LTX-2.3 Lipsync,親自感受其中的差異。