WaveSpeedAI LTX 2 19b現已登陸WaveSpeedAI
免費試用 Wavespeed Ai Ltx.2 19b Text To VideoLTX-2 19B 現已登陸WaveSpeedAI:具備同步音頻的文字轉影片生成
AI 影片生成技術的製作級應用競賽剛剛達到了新的里程碑。Lightricks 推出的突破性文字轉影片基礎模型 LTX-2 19B 現已在 WaveSpeedAI 上線—為創作者、行銷人員和開發人員帶來了同步音視頻生成、多種性能模式和長達 20 秒的影片片段功能。
與傳統的 AI 影片模型不同(這些模型會生成無聲影片,需要後續單獨進行音頻製作),LTX-2 19B 在一次處理中就能生成完整的視聽體驗。腳步聲與行走動作完全同步。環境音效與視覺環境相匹配。語音般的音調和環境音頻自然地從您的文字提示中生成—無需進行音頻編輯。
什麼是 LTX-2 19B?
LTX-2 19B 是首個基於 DiT(擴散變壓器)的音視頻基礎模型,可在統一系統中將同步聲音和影片生成結合在一起。憑藉 190 億個參數,它代表了 AI 多媒體內容生成方式的根本架構轉變。
LTX-2 由 Lightricks 在 2025 年末發佈,目前已完全開源。它已被公認為市場上最開發者友好的影片 AI 模型之一。它在消費級 GPU 上運行效率高,可輸出分辨率高達 1080p 的製作級品質內容,最重要的是,對於 WaveSpeedAI 用戶來說,可以通過隨時可用的 REST API 訪問,沒有冷啟動,價格經濟實惠。
該模型支持靈活的寬高比(16:9 橫向和 9:16 縱向)、5 到 20 秒的可變時長,以及三個分辨率級別(480p、720p、1080p)以平衡質量、速度和成本。
使 LTX-2 與眾不同的關鍵功能
同步音視頻生成
LTX-2 的決定性特徵是它能夠生成自然與視覺內容對齐的音頻。當您提示「城市天際線上空的雷暴」時,您會得到閃電 和 雷鳴聲。「在昏暗俱樂部中表演的爵士鋼琴家」會產生不僅是琴鍵上的動畫手指,還包括現場表演的環境音景。
這不是層疊在頂部的背景音樂—這是通過與創建視覺效果相同的擴散過程生成的環境音頻,確保時間和語義對齐。
製作級品質
LTX-2 19B 已與 Sora 2 和 Kling 2.6 等頂級競爭對手進行了基準測試。雖然 Sora 2 在某些用例中的光真度領先,但 LTX-2 提供了引人注目的平衡:自然反應的角色、時間上一致的動作,以及獨特之處—20 秒影片生成,相比 Sora 2 的 12 秒上限。
根據業界比較,LTX-2 在視覺質量上與 Sora 2 基本相當,而每次生成的成本降低約 40%,並提供更長的時長輸出。
靈活的分辨率和寬高比
WaveSpeedAI 的實現讓您完全控制輸出格式:
- 480p:快速迭代,成本最低—適合快速原型設計和測試多個提示
- 720p:質量和成本均衡,適合大多數社交媒體和網路使用場景
- 1080p:最大細節,適合最終成果、簡報和高端內容
您可以在 16:9 橫向(YouTube、桌面)和 9:16 縱向(TikTok、Instagram Reels、Stories)之間切換,以匹配平台要求,無需額外工具。
可變時長控制
生成 5 到 20 秒的片段—足以建立敘事節奏、展示產品演示或創建完整的社交媒體片段。這種延長的時長使 LTX-2 在競爭對手中脫穎而出,減少了拼接多次生成的需要。
真實使用場景
短視頻社交內容
在幾秒內創建具有內置音頻的 TikTok、Reels 和 Stories。無需單獨搜索音頻、獲取許可或手動同步。提示「滑板穿過霓虹燈隧道」,您就會得到一個準備好上傳的完整片段。
產品演示
生成具有增強視覺敘述的推廣影片,配以環境音效。例如「在陽光照射的廚房中,咖啡倒入陶瓷杯」的提示會產生蒸汽、動作 和 液體擊中瓷器的聲音。
行銷和廣告
製作具有內聚音視頻設計的廣告內容。LTX-2 生成環境上適當的音頻的能力意味著您的產品鏡頭配合相符的音景—無需股票音頻庫。
原型設計和概念可視化
快速為利益相關者審查可視化想法。在 480p 時迭代以測試提示變化,一旦概念確定後,在 1080p 時渲染最終版本。固定的種子參數確保了整個迭代過程中的可重複性。
內容創作者和 YouTuber
生成具有同步聲音的 B-roll、片頭或敘事序列。20 秒的時長窗口非常適合建立鏡頭、過渡或獨立的故事節奏。
如何在 WaveSpeedAI 上開始使用
在 WaveSpeedAI 上使用 LTX-2 19B 非常簡單:
-
導航到模型頁面:https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
-
編寫您的提示:描述場景、動作和任何特定的音頻線索(例如,「砂礫上的腳步聲」、「遠處的雷聲」、「爵士鋼琴」)
-
配置設置:
- 分辨率:選擇 480p(快速迭代)、720p(均衡)或 1080p(最終質量)
- 寬高比:16:9 用於橫向,9:16 用於縱向
- 時長:根據您的內容需求選擇 5–20 秒
- 種子(可選):設定固定值以獲得可重複的結果
-
運行:提交您的請求並接收具有同步音頻的影片—無需後期製作
WaveSpeedAI 處理所有基礎設施:即時冷啟動、優化推理和按秒計費。您只需為生成的內容付費,透明定價從 5 秒 480p 片段的 $0.06 起。
Python SDK 示例
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/text-to-video",
{
"prompt": "A golden retriever playing in autumn leaves, slow motion",
"resolution": "720p",
"aspect_ratio": "16:9",
"duration": 10
},
)
print(output["outputs"][0]) # Video URL with audio
隨著需求增長的定價
WaveSpeedAI 提供根據分辨率和時長調整的基於使用量的定價:
| 分辨率 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.06 | $0.12 | $0.18 | $0.24 |
| 720p | $0.08 | $0.16 | $0.24 | $0.32 |
| 1080p | $0.12 | $0.24 | $0.36 | $0.48 |
此定價模型確保您可以在較低分辨率下自由迭代,並保留高質量渲染用於最終輸出—最大化創意靈活性和成本效率。
為什麼選擇 WaveSpeedAI?
WaveSpeedAI 為您的製作工作流提供所需的基礎設施優勢:
- 無冷啟動:即時推理,即使在長期空閒後也是如此
- 快速推理:優化 GPU 分配,最小化等待時間
- 經濟實惠的定價:只需為您使用的秒數和分辨率付費
- REST API:簡單集成到現有工作流、自動化管道或自訂應用程式中
- 透明計費:無隱藏費用、訂閱層級或計算積分
最佳結果的專業提示
- 明確指定音頻:雖然音頻會自動生成,但在提示中描述聲音(「雷暴」、「爵士音樂」、「腳步聲」)有助於指導模型
- 將寬高比與平台匹配:對於縱向優先的平台(TikTok、Stories),使用 9:16;對於 YouTube 和桌面,使用 16:9
- 在 480p 迭代:以較低成本調整您的提示,然後升級到 1080p 以進行最終交付
- 使用固定種子:測試提示變化時,鎖定種子以隔離更改的影響
- 組合多個片段:對於較長的內容,生成 20 秒的片段並在後期編輯中將它們拼接在一起
音視頻 AI 的未來
LTX-2 19B 代表了影片 AI 的根本轉變—從生成無聲片段到製作完整的視聽體驗。作為首個基於 DiT 的音視頻基礎模型,它為創作者應該對生成影片工具的期望設定了新的基準。
通過 WaveSpeedAI 處理基礎設施和 Lightricks 的開源模型提供尖端生成質量,您可以專注於重要的事情:創建引人入勝的內容。
立即試用 LTX-2 19B
準備好生成您的第一個同步音視頻片段了嗎?前往 WaveSpeedAI 上的 LTX-2 19B 模型頁面並開始創建。無論您是獨立創作者、行銷團隊或開發自動化內容管道的開發人員,LTX-2 19B 都提供製作級結果,價格隨您的需求而調整。
立即開始生成:https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video





