LTX 2.3 Text-to-Video LoRA現已登陸WaveSpeedAI
支援LoRA的LTX-2.3是一款基於DiT架構的音視頻基礎模型,專為生成具有自訂風格、動作或人物外觀的同步音視頻內容而設計。
LTX-2.3 文字轉影片(支援 LoRA)現已登陸 WaveSpeedAI
想像與影片之間的距離從未如此接近。今天,我們很高興宣布 LTX-2.3 文字轉影片(支援 LoRA) 正式在 WaveSpeedAI 上線——這個模型不僅能從文字生成影片,更讓您透過輕量級 LoRA 適配器,以自訂風格、角色和動作來打造專屬影片。
無論您是在建立品牌識別、為反覆出現的角色製作動畫,還是創作具有標誌性電影風格的內容,LTX-2.3 搭配 LoRA 都能賦予您一般影片生成模型所無法比擬的掌控力。
什麼是 LTX-2.3 文字轉影片 LoRA?
LTX-2.3 是 Lightricks LTX 模型家族的最新進化——一個基於擴散 Transformer(DiT)的基礎模型,能在單次推論中從一段文字提示同步生成影像與音訊。無需獨立的音訊製作流程,無需後期處理的變通方案。您描述一個場景,就能同時獲得視覺畫面與聲音。
本次發布特別強大之處,在於新增了 LoRA(低秩適應)支援。LoRA 適配器是輕量級、可訓練的模組,疊加在基礎模型之上,將其輸出引導至特定風格、角色或動作模式。您最多可同時疊加三個 LoRA 適配器,將自訂美學與 LTX-2.3 的完整生成能力融合在一起。
結果是:一個既通用又高度可客製化的模型。
主要特色
升級的視覺與音訊品質
LTX-2.3 搭載全新設計的 VAE(變分自編碼器),以更高品質的資料進行訓練。與舊版相比,細緻紋理、毛髮、文字疊加和邊緣細節都更加清晰逼真。在音訊方面,訓練資料已針對靜音間隙、雜訊和偽影進行過濾,全新的聲碼器帶來更乾淨、更可靠的聲音,並與視覺內容緊密對齊。
增強的提示詞遵循度
全新的門控注意力文字連接器使您的提示詞得到更忠實的執行。時序、動作、表情和音訊提示的描述能直接反映在生成輸出中——縮短您所寫與所見之間的落差。
LoRA 客製化
每次生成最多可套用三個 LoRA 適配器,每個都可調整強度比例。這讓您能夠:
- 鎖定視覺風格 — 電影質感、動漫美學、品牌色彩調色盤
- 維持角色一致性 — 在多個片段中保持同一張臉、人物或吉祥物
- 訓練自訂動作模式 — 標誌性動作、攝影技法、編舞設計
- 組合適配器 — 在單次生成中同時疊加角色 LoRA、風格 LoRA 和動作 LoRA
彈性的輸出選項
- 解析度:480p 適合快速迭代,720p 兼顧品質與速度,1080p 適合最終交付
- 時長:可生成 5 至 20 秒的片段
- 同步音訊:聲音與影片在單次模型推論中同步生成,可透過提示詞中的音訊提示引導,例如「窗上的雨聲」、「輕快的爵士樂」或「歡呼的人群」
透明、可預期的定價
每次生成均有明確費用,依解析度和時長計算:
| 解析度 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.25 | $0.50 | $0.75 | $1.00 |
沒有意外費用,沒有隱藏的運算費用。
實際應用場景
大規模品牌內容製作
行銷團隊可針對品牌視覺識別訓練 LoRA——包括標誌處理、色彩調色盤、動態圖形風格——然後僅憑文字描述即可生成符合品牌調性的影片內容。需要 20 個版本的產品發布影片?撰寫提示詞、套用品牌 LoRA,然後直接生成。
角色驅動的故事敘述
圍繞特定角色打造系列或行銷活動的創作者,可從參考片段訓練外觀 LoRA。每支新影片都能保持相同的角色外觀,讓分集內容和社群媒體系列在視覺上保持一致,無需手動剪輯。
社群媒體內容創作
5 至 20 秒的時長範圍完美契合 TikTok、Instagram Reels 和 YouTube Shorts 的短片格式。直接從創意提案生成帶有同步音訊、引人停留的片段,先在 480p 迭代,再以 1080p 渲染最終版本。
快速原型製作與概念視覺化
廣告公司和製作公司可利用文字轉影片生成功能,快速為客戶簡報視覺化概念。描述場景、套用電影風格 LoRA,在幾分鐘而非幾天內製作出精緻的預覽影片。
動態設計與視覺特效探索
針對特定攝影機運動訓練 LoRA——追蹤鏡頭、推拉變焦、流暢橫搖——並將其套用至任何場景。這為動態設計師提供了一個已符合其預期電影語言的起點。
在 WaveSpeedAI 上快速入門
只需幾行程式碼即可生成您的第一支影片:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/text-to-video-lora",
{
"prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
"loras": [
{"path": "your-style-lora-url", "scale": 0.8}
],
"resolution": "720p",
"duration": 10,
},
)
print(output["outputs"][0])
在 WaveSpeedAI 上運行意味著無冷啟動——您的請求會直接命中已預熱的 GPU 並立即開始生成。結合實惠的單次生成定價和簡潔的 REST API,您可以將影片生成整合至生產工作流程,無需承擔基礎設施負擔。
獲得最佳效果的專業技巧
- 低成本迭代:先在 480p 優化提示詞和 LoRA 組合,再以 1080p 渲染最終版本
- 精確描述音訊:在提示詞中加入音訊提示——「輕柔的鋼琴音樂」、「海浪拍打聲」、「碎石上的腳步聲」——以獲得更有意圖的音景
- 使用固定種子:比較提示詞變體或 LoRA 強度時,鎖定種子以隔離實際變化的因素
- 策略性疊加 LoRA:將風格適配器與動作適配器組合,可獲得單獨使用各自無法達到的效果,並調整每個的強度比例以找到最佳平衡
更宏觀的視角
AI 影片生成在 2026 年已跨越了一道門檻。曾經只能產出模糊幾秒片段的新奇技術,如今已成熟為能輸出電影品質畫面、具有連貫動作和同步音訊的生產就緒工具。支援 LoRA 的 LTX-2.3 代表了這一演進的下一步:不只是更好的基礎品質,更是讓模型成為您專屬的能力。
自訂 LoRA 將通用影片模型轉化為理解您的品牌、您的角色和您的美學的專業創作工具。這就是生成通用內容與生成您的內容之間的差異。
立即開始創作
LTX-2.3 文字轉影片(支援 LoRA)現已在 WaveSpeedAI 上線。前往模型頁面探索 API、執行您的第一次生成,親眼見證當頂尖影片生成技術與自訂 LoRA 適配器的精準度相結合時,一切皆有可能。
您的文字。您的風格。您的影片。





