← 部落格

LTX 2.3 Text-to-Video LoRA現已登陸WaveSpeedAI

支援LoRA的LTX-2.3是一款基於DiT架構的音視頻基礎模型,專為生成具有自訂風格、動作或人物外觀的同步音視頻內容而設計。

2 min read
Wavespeed Ai Ltx.2.3 Text To Video Lora
Wavespeed Ai Ltx.2.3 Text To Video Lora 支援LoRA的LTX-2.3是一款基於DiT架構的音視頻基礎模型,專為生成具有自訂風格、動作或人物外觀的同步音視頻內容而...
Try it
LTX 2.3 Text-to-Video LoRA現已登陸WaveSpeedAI

LTX-2.3 文字轉影片(支援 LoRA)現已登陸 WaveSpeedAI

想像與影片之間的距離從未如此接近。今天,我們很高興宣布 LTX-2.3 文字轉影片(支援 LoRA) 正式在 WaveSpeedAI 上線——這個模型不僅能從文字生成影片,更讓您透過輕量級 LoRA 適配器,以自訂風格、角色和動作來打造專屬影片。

無論您是在建立品牌識別、為反覆出現的角色製作動畫,還是創作具有標誌性電影風格的內容,LTX-2.3 搭配 LoRA 都能賦予您一般影片生成模型所無法比擬的掌控力。

什麼是 LTX-2.3 文字轉影片 LoRA?

LTX-2.3 是 Lightricks LTX 模型家族的最新進化——一個基於擴散 Transformer(DiT)的基礎模型,能在單次推論中從一段文字提示同步生成影像與音訊。無需獨立的音訊製作流程,無需後期處理的變通方案。您描述一個場景,就能同時獲得視覺畫面與聲音。

本次發布特別強大之處,在於新增了 LoRA(低秩適應)支援。LoRA 適配器是輕量級、可訓練的模組,疊加在基礎模型之上,將其輸出引導至特定風格、角色或動作模式。您最多可同時疊加三個 LoRA 適配器,將自訂美學與 LTX-2.3 的完整生成能力融合在一起。

結果是:一個既通用又高度可客製化的模型。

主要特色

升級的視覺與音訊品質

LTX-2.3 搭載全新設計的 VAE(變分自編碼器),以更高品質的資料進行訓練。與舊版相比,細緻紋理、毛髮、文字疊加和邊緣細節都更加清晰逼真。在音訊方面,訓練資料已針對靜音間隙、雜訊和偽影進行過濾,全新的聲碼器帶來更乾淨、更可靠的聲音,並與視覺內容緊密對齊。

增強的提示詞遵循度

全新的門控注意力文字連接器使您的提示詞得到更忠實的執行。時序、動作、表情和音訊提示的描述能直接反映在生成輸出中——縮短您所寫與所見之間的落差。

LoRA 客製化

每次生成最多可套用三個 LoRA 適配器,每個都可調整強度比例。這讓您能夠:

  • 鎖定視覺風格 — 電影質感、動漫美學、品牌色彩調色盤
  • 維持角色一致性 — 在多個片段中保持同一張臉、人物或吉祥物
  • 訓練自訂動作模式 — 標誌性動作、攝影技法、編舞設計
  • 組合適配器 — 在單次生成中同時疊加角色 LoRA、風格 LoRA 和動作 LoRA

彈性的輸出選項

  • 解析度:480p 適合快速迭代,720p 兼顧品質與速度,1080p 適合最終交付
  • 時長:可生成 5 至 20 秒的片段
  • 同步音訊:聲音與影片在單次模型推論中同步生成,可透過提示詞中的音訊提示引導,例如「窗上的雨聲」、「輕快的爵士樂」或「歡呼的人群」

透明、可預期的定價

每次生成均有明確費用,依解析度和時長計算:

解析度5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.25$0.50$0.75$1.00

沒有意外費用,沒有隱藏的運算費用。

實際應用場景

大規模品牌內容製作

行銷團隊可針對品牌視覺識別訓練 LoRA——包括標誌處理、色彩調色盤、動態圖形風格——然後僅憑文字描述即可生成符合品牌調性的影片內容。需要 20 個版本的產品發布影片?撰寫提示詞、套用品牌 LoRA,然後直接生成。

角色驅動的故事敘述

圍繞特定角色打造系列或行銷活動的創作者,可從參考片段訓練外觀 LoRA。每支新影片都能保持相同的角色外觀,讓分集內容和社群媒體系列在視覺上保持一致,無需手動剪輯。

社群媒體內容創作

5 至 20 秒的時長範圍完美契合 TikTok、Instagram Reels 和 YouTube Shorts 的短片格式。直接從創意提案生成帶有同步音訊、引人停留的片段,先在 480p 迭代,再以 1080p 渲染最終版本。

快速原型製作與概念視覺化

廣告公司和製作公司可利用文字轉影片生成功能,快速為客戶簡報視覺化概念。描述場景、套用電影風格 LoRA,在幾分鐘而非幾天內製作出精緻的預覽影片。

動態設計與視覺特效探索

針對特定攝影機運動訓練 LoRA——追蹤鏡頭、推拉變焦、流暢橫搖——並將其套用至任何場景。這為動態設計師提供了一個已符合其預期電影語言的起點。

在 WaveSpeedAI 上快速入門

只需幾行程式碼即可生成您的第一支影片:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video-lora",
    {
        "prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
        "loras": [
            {"path": "your-style-lora-url", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

在 WaveSpeedAI 上運行意味著無冷啟動——您的請求會直接命中已預熱的 GPU 並立即開始生成。結合實惠的單次生成定價和簡潔的 REST API,您可以將影片生成整合至生產工作流程,無需承擔基礎設施負擔。

獲得最佳效果的專業技巧

  • 低成本迭代:先在 480p 優化提示詞和 LoRA 組合,再以 1080p 渲染最終版本
  • 精確描述音訊:在提示詞中加入音訊提示——「輕柔的鋼琴音樂」、「海浪拍打聲」、「碎石上的腳步聲」——以獲得更有意圖的音景
  • 使用固定種子:比較提示詞變體或 LoRA 強度時,鎖定種子以隔離實際變化的因素
  • 策略性疊加 LoRA:將風格適配器與動作適配器組合,可獲得單獨使用各自無法達到的效果,並調整每個的強度比例以找到最佳平衡

更宏觀的視角

AI 影片生成在 2026 年已跨越了一道門檻。曾經只能產出模糊幾秒片段的新奇技術,如今已成熟為能輸出電影品質畫面、具有連貫動作和同步音訊的生產就緒工具。支援 LoRA 的 LTX-2.3 代表了這一演進的下一步:不只是更好的基礎品質,更是讓模型成為您專屬的能力。

自訂 LoRA 將通用影片模型轉化為理解您的品牌、您的角色和您的美學的專業創作工具。這就是生成通用內容與生成您的內容之間的差異。

立即開始創作

LTX-2.3 文字轉影片(支援 LoRA)現已在 WaveSpeedAI 上線。前往模型頁面探索 API、執行您的第一次生成,親眼見證當頂尖影片生成技術與自訂 LoRA 適配器的精準度相結合時,一切皆有可能。

您的文字。您的風格。您的影片。