WaveSpeedAI LTX 2.3 LipSync 現已登陸WaveSpeedAI
LTX-2.3 Lipsync 能根據音頻生成帶有同步唇型動作與自然臉部表情的說話人物影片。採用基於 DiT 的架構構建
新一代 AI 唇型同步技術正式登場:LTX-2.3 Lipsync
從音訊生成逼真的說話人物影片,從未如此簡單——效果也從未如此出色。我們很高興宣布 LTX-2.3 Lipsync 現已在 WaveSpeedAI 上線,這是 Lightricks 音訊驅動影片生成模型的最新進化版本。基於升級後的 LTX-2.3 DiT 架構,這個模型相較於前一代,在畫面清晰度、唇型同步精準度及音視訊對齊品質上均有顯著提升。
無論您是要為企業培訓打造虛擬主持人、將行銷影片本地化為數十種語言,還是將播客音訊轉換為吸引人的影片內容,LTX-2.3 Lipsync 都能透過簡單的 API 呼叫實現——無冷啟動延遲,每次生成起價僅 $0.10。
什麼是 LTX-2.3 Lipsync?
LTX-2.3 Lipsync 是一款先進的 AI 模型,能從音訊檔案及可選的參考人像圖片生成說話人物影片。輸入一段語音錄音,它便會產出一段唇型動作精準同步、頭部動作自然、面部表情符合語境的影片。
該模型建立在 Lightricks 的 LTX-2.3 基礎架構之上——一種在統一流程中同時生成影片與音訊的擴散變換器(DiT)架構。與舊式唇型同步方案不同,後者僅是在後製階段將嘴部動畫疊加到靜態臉部上,LTX-2.3 能深入理解語音與視覺動作之間的內在關聯。其結果不只是讓嘴型配合音素,更能捕捉微妙的頭部傾斜、眉毛動作和表情變化,讓人物說話看起來自然真實。
2.3 版本引入了重新設計的 VAE,能產生更清晰的細節與更真實的質感;改進的動作一致性消除了舊版模型中靜止或抖動的瑕疵;以及門控注意力文字連接器,以實現更好的提示詞遵循效果。這些並非微幅調整——而是在每一幀畫面中都能看見的顯著品質提升。
主要功能
- 改進的音視訊對齊:升級後的架構在跨語言和不同說話風格下,均能提供更精準的唇型同步與更乾淨的音素匹配
- 更清晰的視覺品質:全新 VAE 在整個影片中產生更清晰的面部特徵、更真實的膚質紋理及更乾淨的邊緣
- 音訊驅動生成:上傳音訊檔案,模型自動處理所有細節——唇型同步、頭部動作、眨眼和面部表情
- 可選參考圖片:提供人像圖片以定義說話者的外觀,或讓模型使用預設值自動生成
- 靈活的解析度選擇:480p 快速迭代、720p 平衡品質,或 1080p 用於可上線的輸出
- 自動時長匹配:影片長度自動配合音訊輸入,支援 5 至 20 秒的片段
- 提示詞引導風格:使用可選文字提示詞來影響生成影片的面部表情、光線效果和整體風格
實際應用場景
行銷與品牌內容
AI 說話人物影片正在改變行銷團隊的運作方式。Stellantis Financial Services 和 Sonesta Hotels 等企業已報告,使用 AI 生成主持人後,影片製作成本降低了 60 至 80%。透過 LTX-2.3 Lipsync,您可以為產品發布、社群媒體活動和個人化推廣創作一致的代言人影片——然後以新語言重新生成,無需重新拍攝任何一幀。
企業培訓與線上學習
企業學習市場正快速採用 AI 影片來製作可擴展的培訓內容。LTX-2.3 Lipsync 讓教學設計師僅憑腳本就能製作由主持人帶領的培訓影片。只需重新錄製音訊即可更新課程內容——無需租借攝影棚、無需協調排程、無需生產延誤。一張參考圖片就能成為整個培訓課程的一致形象代言。
內容本地化與配音
全球企業需要多語言內容。傳統配音費時費力。透過 LTX-2.3 Lipsync,您可以取用任何語言的現有音軌,並生成匹配該語言準確唇型動作的說話人物影片。模型自動處理不同語言之間的嘴型和語音模式差異。
播客與音訊轉影片
影片在社群平台上的表現始終優於純音訊內容。將播客片段、旁白或配音錄音轉換為吸引眼球的說話人物影片,在動態消息中抓住用戶注意力。這對於將長篇音訊內容重新包裝為 YouTube Shorts、TikTok 和 Instagram Reels 等平台的短影片尤其有價值。
無障礙應用
為聽障觀眾生成視覺語音內容、製作具有清晰視覺語音提示的解說影片,或為以音訊為主的教育內容製作輔助視覺素材。
在 WaveSpeedAI 上開始使用
只需幾行程式碼,即可將 LTX-2.3 Lipsync 整合到您的工作流程中:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/lipsync",
{
"audio": "https://your-audio-url.com/speech.mp3",
"image": "https://your-image-url.com/portrait.jpg",
"resolution": "720p"
},
)
print(output["outputs"][0]) # 輸出影片 URL
API 參數說明如下:
- audio(必填):音訊檔案的 URL——這驅動生成過程並決定影片長度
- image(選填):定義說話者外觀的參考人像 URL
- prompt(選填):用於引導表情風格和視覺基調的文字描述
- resolution(選填):480p、720p(預設)或 1080p
透明且實惠的定價
定價依音訊時長與解析度計算:
| 解析度 | 5 秒 | 10 秒 | 15 秒 | 20 秒 |
|---|---|---|---|---|
| 480p | $0.10 | $0.20 | $0.30 | $0.40 |
| 720p | $0.15 | $0.30 | $0.45 | $0.60 |
| 1080p | $0.20 | $0.40 | $0.60 | $0.80 |
無需訂閱,無最低消費門檻。只需為您生成的內容付費。
最佳效果使用技巧
-
從 480p 開始:以最低解析度迭代調整您的音訊和參考圖片,快速找到理想效果,然後再以 720p 或 1080p 渲染最終版本。
-
使用乾淨的音訊:背景雜音少的清晰語音能產生最佳的唇型同步精準度。提交前請先對含有雜音的錄音進行預處理。
-
選擇正面朝向的人像:臉部清晰可見、表情自然、光線良好的參考圖片能產生最自然的效果。
-
透過提示詞引導:使用可選的 prompt 參數來影響表情和風格——例如「溫暖的微笑、專業的光線效果」或「嚴肅的語氣、直視鏡頭」。
-
分段處理較長內容:對於超過 20 秒的內容,請生成多個片段,然後在後製中拼接。每段保持在 20 秒以內以確保最佳品質。
為什麼選擇 WaveSpeedAI?
在 WaveSpeedAI 上運行 LTX-2.3 Lipsync,您將獲得在正式環境中至關重要的基礎架構優勢:
- 無冷啟動:請求立即開始處理——無需等待 GPU 預熱
- 快速推理:優化的服務基礎架構快速交付結果,支援快速迭代
- 簡單的 REST API:以最少的整合工作,將說話人物生成功能加入任何應用程式
- 可預測的費用:透明的按次計費,無隱藏費用
立即開始構建
LTX-2.3 Lipsync 代表了音訊驅動影片生成品質的重大飛躍。改進的視覺保真度、更精準的唇型同步,以及提示詞引導生成的實用靈活性,使其成為目前透過 API 可用的最強大唇型同步模型之一。
準備好創建您的第一個說話人物影片了嗎?在 WaveSpeedAI 上試用 LTX-2.3 Lipsync,親自感受其中的差異。





