WaveSpeedAI LTX 2 19b LipSync現已登陸WaveSpeedAI
介紹 LTX-2 19B 唇形同步:音頻驅動的說話頭部視頻生成
靜止圖像和動態視頻內容之間的界限隨著 AI 的進步而不斷模糊。今天,我們很高興宣佈 LTX-2 19B 唇形同步現已登陸 WaveSpeedAI——一個強大的音頻驅動模型,能將參考肖像轉換為同步的說話頭部視頻,具有卓越的保真度和自然的動作。
無論您是在創建數字化身、本地化多語言內容,還是大規模製作教育視頻,LTX-2 唇形同步都能通過簡單的 REST API 提供專業級的結果,無冷啟動且價格實惠。
LTX-2 19B 唇形同步是什麼?
LTX-2 唇形同步建立在 Lightricks 突破性的 LTX-2 基礎模型之上——一個 190 億參數的擴散變壓器(DiT)架構,專門為同步視聽生成設計。與傳統的唇形同步工具只是簡單地動畫化嘴部運動不同,LTX-2 理解音頻和視頻之間的雙向關係:語音決定嘴部運動,而視覺背景塑造結果的自然程度。
該模型採用非對稱雙流變壓器架構,具有雙向交叉注意層和時間位置嵌入。這種技術上的複雜性轉化為實際優勢:視聽對齐的亞幀精度、伴隨語言的自然頭部運動,以及與音頻情感基調相匹配的表情。
結果是說話頭部視頻不僅移動嘴唇——它們感起來栩栩如生。
主要功能
- 音頻驅動生成:上傳音頻文件和可選的參考圖像,模型自動處理唇形同步、頭部運動和面部表情
- 190 億參數 DiT 架構:龐大的參數數量實現高度詳細、時間上一致的視頻,具有與語言模式相匹配的自然嘴部運動
- 靈活的分辨率選項:選擇 480p(快速迭代)、720p(平衡品質)或 1080p(最大細節)以適應您的工作流和預算
- 可變時長支持:生成 5 到 20 秒的視頻,長度由音頻輸入自動確定
- 自然表情合成:超越基本唇部運動,包括伴隨自然語言的細微頭部傾斜、眼睛運動和面部表情
- 多語言支持:支持跨語言工作,處理不同語言模式和嘴形的細微差別
真實應用場景
數字化身和虛擬主持人
為虛擬主持人、品牌大使或 AI 驅動的客戶服務代表創建一致的說話頭部視頻。保持視覺一致性,同時改變語言信息。
內容本地化和配音
將現有視頻內容配音成新語言,同時保持原始演講者的外觀。這對於全球營銷活動、培訓材料以及需要達到國際觀眾的娛樂內容特別有價值。
社交媒體和市場營銷
大規模為社交平台製作引人入勝的說話頭部內容。創建個性化視頻信息、產品公告或教育內容,無需傳統視頻製作的開銷。
電子學習和教育內容
利用一致的虛擬主持人生成教學視頻。非常適合在線課程、企業培訓和需要高效製作大量視頻內容的教育平台。
無障礙應用
創建同步的視覺內容用於無障礙目的,包括手語解釋視頻或具有清晰視覺語言提示的敘述內容。
在 WaveSpeedAI 上開始使用
通過 WaveSpeedAI 的 API 使用 LTX-2 唇形同步很簡單。以下是一個簡單的例子:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/lipsync",
{
"audio": "https://your-audio-url.com/speech.mp3",
"image": "https://your-image-url.com/portrait.jpg",
"resolution": "720p"
},
)
print(output["outputs"][0]) # 輸出視頻 URL
該 API 接受三個關鍵參數:
- audio(必需):音頻文件的 URL——這驅動唇形同步並確定視頻長度
- image(可選):定義演講者外觀的參考肖像的 URL
- resolution(可選):輸出品質——480p、720p(默認)或 1080p
根據您的需求量身定制的定價
LTX-2 唇形同步定價透明且實惠:
| 分辨率 | 5 秒 | 10 秒 | 15 秒 | 20 秒 |
|---|---|---|---|---|
| 480p | $0.075 | $0.15 | $0.225 | $0.30 |
| 720p | $0.10 | $0.20 | $0.30 | $0.40 |
| 1080p | $0.15 | $0.30 | $0.45 | $0.60 |
從 480p 開始進行快速迭代,然後擴展到更高分辨率以進行最終交付。
獲得最佳結果的提示
-
使用清晰、高質量的音頻:語言音頻越清晰,唇形同步效果越好。最小化背景噪音並確保音量水平一致。
-
選擇正面肖像:具有清晰可見嘴部和中性表情的參考圖像效果最好。避免極端角度或被遮擋的臉部。
-
在較低分辨率進行迭代:在 480p 進行調整,然後在 720p 或 1080p 進行最終渲染,以節省時間和成本。
-
使用固定種子進行比較:比較變化時,設置固定的種子值以隔離其他參數更改的效果。
-
保持音頻在 20 秒以下:最大視頻時長為 20 秒。對於較長的內容,生成多個片段並在後期製作中組合它們。
為什麼選擇 WaveSpeedAI?
在 WaveSpeedAI 上運行 LTX-2 唇形同步意味著您會獲得:
- 無冷啟動:您的請求立即開始處理——無需等待基礎設施啟動
- 快速推理:優化的基礎設施快速提供結果,實現快速迭代
- 簡單 REST API:只需幾行代碼即可將唇形同步功能集成到您的應用程序中
- 透明定價:只為您生成的內容付費,無隱藏費用或最低承諾
立即開始創建
LTX-2 19B 唇形同步代表了可訪問、高質量說話頭部視頻生成的重大進步。Lightricks 先進的 DiT 架構與 WaveSpeedAI 優化推理基礎設施的結合,使專業級唇形同步對任何開發人員或內容創作者都變得觸手可及。
準備好讓您的圖像栩栩如生了嗎?在 WaveSpeedAI 上嘗試 LTX-2 唇形同步並體驗真正有效的音頻驅動視頻生成。





