← 部落格

WaveSpeedAI LTX 2.3文字轉影片現已登陸WaveSpeedAI

LTX-2.3 是一個基於 DiT 架構的音視頻基礎模型,專為在單一模型內生成同步影片與音訊而設計,並具備更出色的音訊與視覺品質。

By WaveSpeedAI 2 min read
Wavespeed Ai Ltx.2.3 Text To Video LTX-2.3 是一個基於 DiT 架構的音視頻基礎模型,專為在單一模型內生成同步影片與音訊而設計,並具備更出色的音訊與...
Try it

LTX-2.3 文字轉影片:從單一提示詞生成同步影音

LTX-2.3 是一個基於 DiT 架構的音訊-影片基礎模型,能從單一文字提示詞生成完全同步的影片與音訊,徹底消除了傳統上需要分開製作視覺與聲音的兩步驟工作流程。此升級版本現已在 WaveSpeedAI 上推出,帶來比前代更清晰的視覺、更豐富的音訊,以及明顯更好的提示詞遵循度,對於希望無需整合多種 AI 工具就能獲得可直接使用成品的創作者而言,是極具吸引力的選擇。

對於工作室、行銷人員和獨立創作者來說,重點很簡單:輸入一個場景描述,獲得一支聲音已經完全到位的影片。

LTX-2.3 文字轉影片的運作原理

LTX-2.3 建立在擴散 Transformer(DiT)架構之上,並以影片與音訊資料進行聯合訓練。模型不再是先生成靜音片段再配音,而是在單次前向傳遞中同時生成兩種模態,讓畫面事件與音訊提示保持對齊——腳步聲精準落在節拍上、雨滴出現時雨聲隨之響起、環境聲也與視覺情境相符。

開發者關心的主要技術規格:

  • 輸入:描述場景、動態與音訊提示的文字提示詞
  • 輸出:內嵌同步音訊的 MP4 影片
  • 解析度:480p、720p(預設)、1080p
  • 時長:單次生成 5 至 20 秒
  • 限制:寬高需為 32 的倍數;幀數需為 8 的倍數加 1
  • 種子控制:可選固定種子值以實現可重現的迭代

與輸出靜音片段的文字轉影片模型(如 Sora 風格或早期擴散基線)相比,LTX-2.3 將視覺合成與音訊生成兩條流水線合而為一。這意味著更低的延遲、更低的成本,以及無需在後製中手動同步。

準備好測試了嗎?在 WaveSpeedAI 上試用 LTX-2.3 文字轉影片,在一分鐘內生成您的第一個片段。

LTX-2.3 文字轉影片的主要功能

  • 單次生成同步影音 — 無需獨立的音效設計步驟。模型在同一擴散過程中生成匹配的環境音、音效和氛圍音訊。
  • 比 LTX-2 更佳的提示詞遵循度 — 2.3 版本更新強化了詳細提示詞與渲染場景之間的對齊,讓複雜描述更可靠地呈現在畫面上。
  • 三種解析度選項(480p / 720p / 1080p) — 以 480p 低成本迭代,最終交付時再升級至 1080p,無需更改提示詞或工作流程。
  • 最長 20 秒的可變片段時長 — 足夠用於廣告旁白、社群鉤子和短敘事節拍;同時足夠短以保持生成速度。
  • 基於 DiT 的基礎模型 — 擴散 Transformer 架構提供時間一致的動態和高保真紋理,在動態場景中表現尤為突出。
  • 可直接用於生產環境的 REST API — 在 WaveSpeedAI 上提供,無冷啟動問題,延遲可預測,按使用量計費。
  • 透過種子控制實現可重現輸出 — 鎖定種子值以 A/B 測試提示詞變體,不受隨機差異干擾。

LTX-2.3 文字轉影片的最佳使用場景

大規模社群媒體內容

短影片平台重視速度與音訊。LTX-2.3 讓創作者能製作帶有內建音效設計的 10–15 秒 TikTok、Reels 和 Shorts 片段,無需搜尋免版稅音樂,無需在 Audacity 中剪輯時間軸。輸入「霓虹燈閃爍的東京街道,雨水打在水坑上,遠處傳來爵士樂,緩慢推軌前進」,模型即返回一支可直接發布的影片。

行銷與效果廣告

效果行銷人員每週需要測試數十種創意變體。透過 LTX-2.3,一家代理商可以以每個 10 秒廣告 $0.30 美元的成本生成完整的 720p 廣告,替換文案或場景描述,並以比任何傳統製作流程都快的速度迭代創意概念。同步音訊意味著每個變體一開始就符合廣告網路的要求。

故事板與前期視覺化

電影導演和動畫師可以將書面場景轉化為帶有匹配氛圍的動態前期視覺。描述劇本中的一個場景——「風嘯過沙漠山脊,騎手疾馳過鏡頭,頭頂烏鴉鳴叫」——並在任何實際拍攝日之前,使用生成的片段與攝影師、剪輯師和客戶對齊想法。

產品展示與說明影片

SaaS 和硬體團隊可以在不預約攝影棚的情況下製作影片說明原型。描述產品情境、動態和環境設定,使用 LTX-2.3 生成已具備精緻聲效的背景 B-roll——非常適合登陸頁面、引導流程和宣傳投影片。

遊戲預告片與電影概念

獨立遊戲工作室可以快速模擬預告片剪輯和氛圍概念影片。同步音訊在這裡特別有價值:一個 10 秒的森林伏擊片段,帶有落葉聲、劍擊聲和鳥兒振翅聲,遠比靜音片段更能傳達遊戲的氛圍。

音樂與情緒視覺化

音樂人和 lo-fi 創作者可以生成循環情緒片段——「雨打窗戶,輕柔鋼琴聲,緩緩推近一杯咖啡」——用於串流視覺化、直播背景和社群貼文。

教育與敘事內容

教育工作者和故事創作者可以為書面內容注入生命。童書作者可以製作動態朗讀的原型;歷史頻道可以呈現場景設定的時刻,無需授權素材影片。

LTX-2.3 定價與 API 存取

LTX-2.3 採用透明的按使用量計費定價,依解析度和時長調整:

解析度5秒10秒15秒20秒
480p$0.10$0.20$0.30$0.40
720p$0.15$0.30$0.45$0.60
1080p$0.20$0.40$0.60$0.80

這意味著一個包含音訊的完整 1080p 20 秒片段僅需 $0.80——僅是典型素材影片授權或自由工作者影片製作成本的一小部分。

透過 WaveSpeedAI API 呼叫 LTX-2.3

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video",
    {
        "prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

開發者關心的 WaveSpeedAI 優勢:

  • 無冷啟動 — 首次呼叫延遲與穩定狀態延遲相同
  • REST API — 語言無關,可整合至任何技術棧
  • 按使用量計費 — 無最低消費,無閒置 GPU 費用
  • 生產級別正常運行時間 — 專為高吞吐量推理工作負載而建構

取得 API 金鑰並開始使用 LTX-2.3 進行建構

使用 LTX-2.3 文字轉影片的最佳技巧

  • 明確描述音訊 — 模型會自動生成聲音,但在提示詞中加入「雨聲」、「爵士鋼琴」、「人群歡呼」或「腳踩碎石聲」,能讓您對音軌有更強的控制力。
  • 描述動態,而非僅描述場景 — 攝影機動作(「緩慢推軌進入」、「手持跟蹤拍攝」)、主體動態和節奏提示,比靜態描述能產生更具電影感的輸出。
  • 以 480p 迭代,以 1080p 渲染 — 使用最低成本的檔次調整您的提示詞,確定構圖後再提升解析度。使用固定種子值讓修改更有意義。
  • 將提示詞限制在一個節拍 — 一個 10 秒的片段只能承載一到兩個敘事時刻。避免將多場景腳本塞入單一提示詞。
  • 在後製中剪輯較長的影片 — 對於超過 20 秒的內容,生成多個 LTX-2.3 片段並在您的非線性剪輯軟體中拼接它們。
  • 使用種子鎖定進行 A/B 測試 — 比較兩個提示詞變體時,設定相同的 seed 值,將提示詞變化與噪音差異隔離開來。

若要從現有圖稿製作動態內容,可將 LTX-2.3 與 LTX-2.3 圖片轉影片 搭配使用,以在整個活動中保持風格一致。

常見問題

LTX-2.3 文字轉影片是什麼?

LTX-2.3 是一個基於 DiT 架構的音訊-影片基礎模型,能在單次傳遞中從文字提示詞生成同步的影片和音訊,可透過 WaveSpeedAI 上的 REST API 使用。

LTX-2.3 的費用是多少?

定價從 5 秒 480p 片段的 $0.10 美元起,最高至 20 秒 1080p 片段的 $0.80 美元——按每次生成計費,無需訂閱。

我可以透過 API 使用 LTX-2.3 嗎?

可以。LTX-2.3 可透過 WaveSpeedAI REST API 使用,無冷啟動問題。提交提示詞、解析度和時長,即可收到內嵌音訊的影片 URL。

LTX-2.3 會自動生成音訊嗎?

是的——音訊在同一模型傳遞中與影片聯合生成。您可以讓模型從視覺情境中推斷音訊,或在提示詞中明確描述聲音以獲得更精確的控制。

LTX-2.3 影片最長可以多長?

每次生成支援 5 至 20 秒。若需要更長的影片,可生成多個片段並在後製中進行剪輯。

立即開始使用 LTX-2.3 生成影片與音訊

LTX-2.3 將影片合成與音訊製作合而為一,成為一個兼具成本效益與高品質的模型——非常適合需要快速完成片段、無需使用多種獨立工具的行銷人員、創作者和開發者。

在 WaveSpeedAI 上試用 LTX-2.3 文字轉影片 →