WaveSpeedAI LTX 2 19b現已登陸WaveSpeedAI

免費試用 Wavespeed Ai Ltx.2 19b Text To Video

LTX-2 19B 現已登陸WaveSpeedAI:具備同步音頻的文字轉影片生成

AI 影片生成技術的製作級應用競賽剛剛達到了新的里程碑。Lightricks 推出的突破性文字轉影片基礎模型 LTX-2 19B 現已在 WaveSpeedAI 上線—為創作者、行銷人員和開發人員帶來了同步音視頻生成、多種性能模式和長達 20 秒的影片片段功能。

與傳統的 AI 影片模型不同(這些模型會生成無聲影片,需要後續單獨進行音頻製作),LTX-2 19B 在一次處理中就能生成完整的視聽體驗。腳步聲與行走動作完全同步。環境音效與視覺環境相匹配。語音般的音調和環境音頻自然地從您的文字提示中生成—無需進行音頻編輯。

什麼是 LTX-2 19B?

LTX-2 19B 是首個基於 DiT(擴散變壓器)的音視頻基礎模型,可在統一系統中將同步聲音和影片生成結合在一起。憑藉 190 億個參數,它代表了 AI 多媒體內容生成方式的根本架構轉變。

LTX-2 由 Lightricks 在 2025 年末發佈,目前已完全開源。它已被公認為市場上最開發者友好的影片 AI 模型之一。它在消費級 GPU 上運行效率高,可輸出分辨率高達 1080p 的製作級品質內容,最重要的是,對於 WaveSpeedAI 用戶來說,可以通過隨時可用的 REST API 訪問,沒有冷啟動,價格經濟實惠。

該模型支持靈活的寬高比(16:9 橫向和 9:16 縱向)、5 到 20 秒的可變時長,以及三個分辨率級別(480p、720p、1080p)以平衡質量、速度和成本。

使 LTX-2 與眾不同的關鍵功能

同步音視頻生成

LTX-2 的決定性特徵是它能夠生成自然與視覺內容對齐的音頻。當您提示「城市天際線上空的雷暴」時,您會得到閃電 雷鳴聲。「在昏暗俱樂部中表演的爵士鋼琴家」會產生不僅是琴鍵上的動畫手指,還包括現場表演的環境音景。

這不是層疊在頂部的背景音樂—這是通過與創建視覺效果相同的擴散過程生成的環境音頻,確保時間和語義對齐。

製作級品質

LTX-2 19B 已與 Sora 2 和 Kling 2.6 等頂級競爭對手進行了基準測試。雖然 Sora 2 在某些用例中的光真度領先,但 LTX-2 提供了引人注目的平衡:自然反應的角色、時間上一致的動作,以及獨特之處—20 秒影片生成,相比 Sora 2 的 12 秒上限。

根據業界比較,LTX-2 在視覺質量上與 Sora 2 基本相當,而每次生成的成本降低約 40%,並提供更長的時長輸出。

靈活的分辨率和寬高比

WaveSpeedAI 的實現讓您完全控制輸出格式:

  • 480p:快速迭代,成本最低—適合快速原型設計和測試多個提示
  • 720p:質量和成本均衡,適合大多數社交媒體和網路使用場景
  • 1080p:最大細節,適合最終成果、簡報和高端內容

您可以在 16:9 橫向(YouTube、桌面)和 9:16 縱向(TikTok、Instagram Reels、Stories)之間切換,以匹配平台要求,無需額外工具。

可變時長控制

生成 5 到 20 秒的片段—足以建立敘事節奏、展示產品演示或創建完整的社交媒體片段。這種延長的時長使 LTX-2 在競爭對手中脫穎而出,減少了拼接多次生成的需要。

真實使用場景

短視頻社交內容

在幾秒內創建具有內置音頻的 TikTok、Reels 和 Stories。無需單獨搜索音頻、獲取許可或手動同步。提示「滑板穿過霓虹燈隧道」,您就會得到一個準備好上傳的完整片段。

產品演示

生成具有增強視覺敘述的推廣影片,配以環境音效。例如「在陽光照射的廚房中,咖啡倒入陶瓷杯」的提示會產生蒸汽、動作 液體擊中瓷器的聲音。

行銷和廣告

製作具有內聚音視頻設計的廣告內容。LTX-2 生成環境上適當的音頻的能力意味著您的產品鏡頭配合相符的音景—無需股票音頻庫。

原型設計和概念可視化

快速為利益相關者審查可視化想法。在 480p 時迭代以測試提示變化,一旦概念確定後,在 1080p 時渲染最終版本。固定的種子參數確保了整個迭代過程中的可重複性。

內容創作者和 YouTuber

生成具有同步聲音的 B-roll、片頭或敘事序列。20 秒的時長窗口非常適合建立鏡頭、過渡或獨立的故事節奏。

如何在 WaveSpeedAI 上開始使用

在 WaveSpeedAI 上使用 LTX-2 19B 非常簡單:

  1. 導航到模型頁面https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video

  2. 編寫您的提示:描述場景、動作和任何特定的音頻線索(例如,「砂礫上的腳步聲」、「遠處的雷聲」、「爵士鋼琴」)

  3. 配置設置

    • 分辨率:選擇 480p(快速迭代)、720p(均衡)或 1080p(最終質量)
    • 寬高比:16:9 用於橫向,9:16 用於縱向
    • 時長:根據您的內容需求選擇 5–20 秒
    • 種子(可選):設定固定值以獲得可重複的結果
  4. 運行:提交您的請求並接收具有同步音頻的影片—無需後期製作

WaveSpeedAI 處理所有基礎設施:即時冷啟動、優化推理和按秒計費。您只需為生成的內容付費,透明定價從 5 秒 480p 片段的 $0.06 起。

Python SDK 示例

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

隨著需求增長的定價

WaveSpeedAI 提供根據分辨率和時長調整的基於使用量的定價:

分辨率5秒10秒15秒20秒
480p$0.06$0.12$0.18$0.24
720p$0.08$0.16$0.24$0.32
1080p$0.12$0.24$0.36$0.48

此定價模型確保您可以在較低分辨率下自由迭代,並保留高質量渲染用於最終輸出—最大化創意靈活性和成本效率。

為什麼選擇 WaveSpeedAI?

WaveSpeedAI 為您的製作工作流提供所需的基礎設施優勢:

  • 無冷啟動:即時推理,即使在長期空閒後也是如此
  • 快速推理:優化 GPU 分配,最小化等待時間
  • 經濟實惠的定價:只需為您使用的秒數和分辨率付費
  • REST API:簡單集成到現有工作流、自動化管道或自訂應用程式中
  • 透明計費:無隱藏費用、訂閱層級或計算積分

最佳結果的專業提示

  • 明確指定音頻:雖然音頻會自動生成,但在提示中描述聲音(「雷暴」、「爵士音樂」、「腳步聲」)有助於指導模型
  • 將寬高比與平台匹配:對於縱向優先的平台(TikTok、Stories),使用 9:16;對於 YouTube 和桌面,使用 16:9
  • 在 480p 迭代:以較低成本調整您的提示,然後升級到 1080p 以進行最終交付
  • 使用固定種子:測試提示變化時,鎖定種子以隔離更改的影響
  • 組合多個片段:對於較長的內容,生成 20 秒的片段並在後期編輯中將它們拼接在一起

音視頻 AI 的未來

LTX-2 19B 代表了影片 AI 的根本轉變—從生成無聲片段到製作完整的視聽體驗。作為首個基於 DiT 的音視頻基礎模型,它為創作者應該對生成影片工具的期望設定了新的基準。

通過 WaveSpeedAI 處理基礎設施和 Lightricks 的開源模型提供尖端生成質量,您可以專注於重要的事情:創建引人入勝的內容。

立即試用 LTX-2 19B

準備好生成您的第一個同步音視頻片段了嗎?前往 WaveSpeedAI 上的 LTX-2 19B 模型頁面並開始創建。無論您是獨立創作者、行銷團隊或開發自動化內容管道的開發人員,LTX-2 19B 都提供製作級結果,價格隨您的需求而調整。

立即開始生成https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video