← 部落格

LTX 2.3 Image-to-Video LoRA現已登陸WaveSpeedAI

LTX-2.3 with LoRA support 是一款基於 DiT 架構的視聽基礎模型,專為生成具有自定義風格、動態或人物相似度的同步影音內容而設計。

2 min read
Wavespeed Ai Ltx.2.3 Image To Video Lora
Wavespeed Ai Ltx.2.3 Image To Video Lora LTX-2.3 with LoRA support 是一款基於 DiT 架構的視聽基礎模型,專為生成具有自定義風格、動態...
Try it
LTX 2.3 Image-to-Video LoRA現已登陸WaveSpeedAI

為您的圖像注入自訂風格:LTX-2.3 圖像轉影片 LoRA 正式上線

靜態圖像固然有力,但動態才能訴說故事。隨著 LTX-2.3 圖像轉影片 LoRA 登陸 WaveSpeedAI,您現在可以將任何靜態圖像轉化為高品質影片,並附帶同步音訊——還能透過 LoRA 適配器,以您自訂的風格、角色及動態模式來客製化輸出結果。

LTX-2.3 基於 Lightricks 最新的擴散 Transformer(DiT)架構,擁有 190 億參數,代表開源影片生成技術的世代性躍進。透過 WaveSpeedAI 上的 LoRA 支援,您不再受限於基礎模型的預設設定——可直接將品牌美學、特定電影風格或角色樣貌注入生成流程。

什麼是 LTX-2.3 圖像轉影片 LoRA?

LTX-2.3 是 Lightricks 最新的音訊影片基礎模型,這個變體結合了兩種極少同時出現的能力:以圖像為條件的影片生成LoRA 微調支援

實際運作方式如下:您提供一張參考圖像——產品照片、人像、概念藝術——模型便會將其動畫化為自然動態與同步音訊兼備的影片,全程一次完成。LoRA 層讓您同時套用最多三個自訂適配器,將輸出引導至您以自有資料訓練的特定視覺風格、動態模式或角色樣貌。

這套影片生成流程不僅開箱即用功能強大,更為專業工作流程提供深度客製化能力。

LTX-2.3 的全新改進

LTX-2.3 並非小幅更新,Lightricks 重新打造了模型的三個核心元件:

  • 重新設計的 VAE:全新的變分自動編碼器以更高品質資料訓練,能產生更銳利的細節、更逼真的紋理與更乾淨的邊緣。頭髮、文字和小型物件在整個畫面中都能保持清晰度——這在較高解析度下尤為顯著。

  • 4 倍更大的文本連接器:全新的門控注意力機制讓提示詞的遵循更為忠實。時序、動態、表情與音訊線索的描述能更精準地轉化為生成結果。

  • 改良的 HiFi-GAN 聲碼器:音訊品質大幅提升,聲音更清晰、雜訊減少,對話、音樂與環境音的處理也更出色。困擾舊版本的靜音間隙與人工痕跡已被濾除。

  • 更佳的圖像轉影片動態:模型從輸入畫面產生更自然、更逼真的動態——減少靜態的「Ken Burns」平移效果,帶來真正尊重參考圖像構圖、光線與主體的動畫。

  • 原生直向支援:直接生成 9:16 直向影片,無需從橫向裁切,非常適合社群媒體與行動優先內容。

主要功能

  • 同步音訊影片生成:音訊與影片在單次模型推理中同步生成——無需獨立的音訊流程。聲音會與視覺動態及提示詞線索進行情境匹配。
  • LoRA 客製化:同時套用最多 3 個 LoRA 適配器,掌控風格、動態與樣貌。每個適配器均包含比例參數,可進行精細混合。
  • 彈性解析度:可選擇 480p 快速迭代、720p 平衡品質,或 1080p 最終輸出。
  • 可變時長:單次生成 5 至 20 秒的片段。
  • 保留構圖:模型在加入自然連貫的動態時,能維持輸入圖像的主體、取景與光線。

實際應用場景

產品行銷

將產品攝影轉化為吸睛的影片廣告。上傳主視覺圖,描述細緻動態與環境音訊,並套用品牌風格 LoRA,在整個行銷活動中保持視覺一致性。

角色動畫

針對特定角色或吉祥物訓練 LoRA,然後以一致的樣貌為任何姿勢或場景中的該角色製作動畫。非常適合動畫工作室、遊戲開發者及建立具辨識度 IP 的內容創作者。

社群媒體內容

將靜態社群貼文轉化為讓人停下滑動的影片內容。原生直向模式支援讓您可直接生成適合 TikTok 和 Instagram Reels 的直向影片,無需後製處理。

電影敘事

以特定電影風格 LoRA——黑色電影、動漫、紀錄片——為分鏡圖或概念藝術製作動畫,獲得具有匹配音訊氛圍的連貫影片。

大規模品牌一致性內容

使用風格 LoRA 將影片生成鎖定於特定的美學規範。每件內容都帶有您品牌的視覺標誌,無論您是生成一個還是一百個片段。

在 WaveSpeedAI 上快速開始

只需幾行程式碼即可開始:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video-lora",
    {
        "image": "https://example.com/your-image.jpg",
        "prompt": "The woman turns her head slowly and smiles, soft ambient music plays",
        "loras": [
            {"path": "https://example.com/your-style-lora.safetensors", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

按需擴展的定價方案

解析度5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.25$0.50$0.75$1.00

從 480p 開始快速迭代您的提示詞與 LoRA 組合,準備好最終輸出時再升級至 1080p。

獲得最佳效果的專業建議

  • 明確描述音訊以獲得特定聲音效果:「窗上的雨聲」、「輕快的爵士樂」或「觀眾掌聲」。
  • 保持動態提示詞簡潔——每個提示詞只描述一個清楚的動作,效果最為連貫。
  • 使用高品質的輸入圖像,確保清晰且曝光良好,以獲得最佳動畫效果。
  • 在 480p 下快速迭代,完成後再以 720p 或 1080p 渲染最終版本。
  • 比較 LoRA 變化時使用固定種子,以排除隨機變化,單獨觀察風格差異。

總結

WaveSpeedAI 上的 LTX-2.3 圖像轉影片 LoRA 為您提供達到製作等級的影片生成能力,以及專業工作流程所需的深度客製化功能。更優異的視覺品質、同步音訊與 LoRA 適配器支援的組合,意味著您生成的不僅僅是通用影片——而是您的影片,以您的風格,按您的規模產出。

無冷啟動延遲、快速推理,以及透明的按秒計費,讓您毫無門檻地開始使用。

立即在 WaveSpeedAI 上試用 LTX-2.3 圖像轉影片 LoRA,看看您的圖像能成就什麼。