WaveSpeedAI LTX 2 19b現已登陸WaveSpeedAI

LTX-2 19B 現已登陸WaveSpeedAI：具備同步音頻的文字轉影片生成

AI 影片生成技術的製作級應用競賽剛剛達到了新的里程碑。Lightricks 推出的突破性文字轉影片基礎模型 LTX-2 19B 現已在 WaveSpeedAI 上線—為創作者、行銷人員和開發人員帶來了同步音視頻生成、多種性能模式和長達 20 秒的影片片段功能。

與傳統的 AI 影片模型不同（這些模型會生成無聲影片，需要後續單獨進行音頻製作），LTX-2 19B 在一次處理中就能生成完整的視聽體驗。腳步聲與行走動作完全同步。環境音效與視覺環境相匹配。語音般的音調和環境音頻自然地從您的文字提示中生成—無需進行音頻編輯。

什麼是 LTX-2 19B？

LTX-2 19B 是首個基於 DiT（擴散變壓器）的音視頻基礎模型，可在統一系統中將同步聲音和影片生成結合在一起。憑藉 190 億個參數，它代表了 AI 多媒體內容生成方式的根本架構轉變。

LTX-2 由 Lightricks 在 2025 年末發佈，目前已完全開源。它已被公認為市場上最開發者友好的影片 AI 模型之一。它在消費級 GPU 上運行效率高，可輸出分辨率高達 1080p 的製作級品質內容，最重要的是，對於 WaveSpeedAI 用戶來說，可以通過隨時可用的 REST API 訪問，沒有冷啟動，價格經濟實惠。

該模型支持靈活的寬高比（16:9 橫向和 9:16 縱向）、5 到 20 秒的可變時長，以及三個分辨率級別（480p、720p、1080p）以平衡質量、速度和成本。

使 LTX-2 與眾不同的關鍵功能

同步音視頻生成

LTX-2 的決定性特徵是它能夠生成自然與視覺內容對齐的音頻。當您提示「城市天際線上空的雷暴」時，您會得到閃電和雷鳴聲。「在昏暗俱樂部中表演的爵士鋼琴家」會產生不僅是琴鍵上的動畫手指，還包括現場表演的環境音景。

這不是層疊在頂部的背景音樂—這是通過與創建視覺效果相同的擴散過程生成的環境音頻，確保時間和語義對齐。

製作級品質

LTX-2 19B 已與 Sora 2 和 Kling 2.6 等頂級競爭對手進行了基準測試。雖然 Sora 2 在某些用例中的光真度領先，但 LTX-2 提供了引人注目的平衡：自然反應的角色、時間上一致的動作，以及獨特之處—20 秒影片生成，相比 Sora 2 的 12 秒上限。

根據業界比較，LTX-2 在視覺質量上與 Sora 2 基本相當，而每次生成的成本降低約 40%，並提供更長的時長輸出。

靈活的分辨率和寬高比

WaveSpeedAI 的實現讓您完全控制輸出格式：

480p：快速迭代，成本最低—適合快速原型設計和測試多個提示
720p：質量和成本均衡，適合大多數社交媒體和網路使用場景
1080p：最大細節，適合最終成果、簡報和高端內容

您可以在 16:9 橫向（YouTube、桌面）和 9:16 縱向（TikTok、Instagram Reels、Stories）之間切換，以匹配平台要求，無需額外工具。

可變時長控制

生成 5 到 20 秒的片段—足以建立敘事節奏、展示產品演示或創建完整的社交媒體片段。這種延長的時長使 LTX-2 在競爭對手中脫穎而出，減少了拼接多次生成的需要。

真實使用場景

短視頻社交內容

在幾秒內創建具有內置音頻的 TikTok、Reels 和 Stories。無需單獨搜索音頻、獲取許可或手動同步。提示「滑板穿過霓虹燈隧道」，您就會得到一個準備好上傳的完整片段。

產品演示

生成具有增強視覺敘述的推廣影片，配以環境音效。例如「在陽光照射的廚房中，咖啡倒入陶瓷杯」的提示會產生蒸汽、動作和液體擊中瓷器的聲音。

行銷和廣告

製作具有內聚音視頻設計的廣告內容。LTX-2 生成環境上適當的音頻的能力意味著您的產品鏡頭配合相符的音景—無需股票音頻庫。

原型設計和概念可視化

快速為利益相關者審查可視化想法。在 480p 時迭代以測試提示變化，一旦概念確定後，在 1080p 時渲染最終版本。固定的種子參數確保了整個迭代過程中的可重複性。

內容創作者和 YouTuber

生成具有同步聲音的 B-roll、片頭或敘事序列。20 秒的時長窗口非常適合建立鏡頭、過渡或獨立的故事節奏。

如何在 WaveSpeedAI 上開始使用

在 WaveSpeedAI 上使用 LTX-2 19B 非常簡單：

導航到模型頁面：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
編寫您的提示：描述場景、動作和任何特定的音頻線索（例如，「砂礫上的腳步聲」、「遠處的雷聲」、「爵士鋼琴」）
配置設置：
- 分辨率：選擇 480p（快速迭代）、720p（均衡）或 1080p（最終質量）
- 寬高比：16:9 用於橫向，9:16 用於縱向
- 時長：根據您的內容需求選擇 5–20 秒
- 種子（可選）：設定固定值以獲得可重複的結果
運行：提交您的請求並接收具有同步音頻的影片—無需後期製作

WaveSpeedAI 處理所有基礎設施：即時冷啟動、優化推理和按秒計費。您只需為生成的內容付費，透明定價從 5 秒 480p 片段的 $0.06 起。

Python SDK 示例

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

隨著需求增長的定價

WaveSpeedAI 提供根據分辨率和時長調整的基於使用量的定價：

分辨率	5秒	10秒	15秒	20秒
480p	$0.06	$0.12	$0.18	$0.24
720p	$0.08	$0.16	$0.24	$0.32
1080p	$0.12	$0.24	$0.36	$0.48

此定價模型確保您可以在較低分辨率下自由迭代，並保留高質量渲染用於最終輸出—最大化創意靈活性和成本效率。

為什麼選擇 WaveSpeedAI？

WaveSpeedAI 為您的製作工作流提供所需的基礎設施優勢：

無冷啟動：即時推理，即使在長期空閒後也是如此
快速推理：優化 GPU 分配，最小化等待時間
經濟實惠的定價：只需為您使用的秒數和分辨率付費
REST API：簡單集成到現有工作流、自動化管道或自訂應用程式中
透明計費：無隱藏費用、訂閱層級或計算積分

最佳結果的專業提示

明確指定音頻：雖然音頻會自動生成，但在提示中描述聲音（「雷暴」、「爵士音樂」、「腳步聲」）有助於指導模型
將寬高比與平台匹配：對於縱向優先的平台（TikTok、Stories），使用 9:16；對於 YouTube 和桌面，使用 16:9
在 480p 迭代：以較低成本調整您的提示，然後升級到 1080p 以進行最終交付
使用固定種子：測試提示變化時，鎖定種子以隔離更改的影響
組合多個片段：對於較長的內容，生成 20 秒的片段並在後期編輯中將它們拼接在一起

音視頻 AI 的未來

LTX-2 19B 代表了影片 AI 的根本轉變—從生成無聲片段到製作完整的視聽體驗。作為首個基於 DiT 的音視頻基礎模型，它為創作者應該對生成影片工具的期望設定了新的基準。

通過 WaveSpeedAI 處理基礎設施和 Lightricks 的開源模型提供尖端生成質量，您可以專注於重要的事情：創建引人入勝的內容。

立即試用 LTX-2 19B

準備好生成您的第一個同步音視頻片段了嗎？前往 WaveSpeedAI 上的 LTX-2 19B 模型頁面並開始創建。無論您是獨立創作者、行銷團隊或開發自動化內容管道的開發人員，LTX-2 19B 都提供製作級結果，價格隨您的需求而調整。

立即開始生成：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video