WaveSpeedAI LTX 2 19b Control現已登陸WaveSpeedAI

介紹LTX-2 19B ControlNet：利用姿態、深度和邊緣引導的精密視頻轉換

AI視頻生成的景觀已經達到了新的里程碑。LTX-2 19B ControlNet為視頻轉換帶來了結構引導的力量，使創作者能夠重塑視頻內容，同時保留使素材引人入勝的運動和動態。基於Lightricks突破性的190億參數擴散變換器架構，此模型代表了受控視頻生成的重大飛躍。

什麼是LTX-2 19B ControlNet？

LTX-2 19B ControlNet是一種視頻轉視頻轉換模型，它使用姿態、深度或canny邊緣檢測來指導新視頻內容的生成，同時保持來自您輸入的運動結構。該模型基於LTX-2系列的相同強大基礎——一個具有48層的非對稱雙流擴散變換器，同時處理視頻和音頻標記。

這個模型的獨特之處在於它能夠生成長達20秒的同步音視頻內容。該架構將其190億參數進行戰略性分配：大約140億用於視頻處理，50億用於音頻，在單次傳遞中實現連貫的多模態輸出。

ControlNet集成允許您選擇模型如何準確解釋源視頻。無論您是想通過姿態檢測保留人類運動、通過深度映射保持場景結構，還是通過canny檢測跟隨精確邊緣，您都對轉換過程擁有完全控制。

主要功能

三種引導模式適應各種用例

姿態模式：從輸入視頻中提取骨骼和姿態信息，非常適合人類和角色動作轉移。此模式可靠地跟蹤整個幀的身體位置，非常適合舞蹈序列、運動動作或任何以人類運動為焦點的內容。
深度模式：從源視頻創建深度圖以保留場景結構和空間關係。當您想轉換環境、改變視覺風格或應用創意效果，同時保持素材基本幾何形狀時，可以使用此模式。
Canny邊緣模式：檢測源素材中的邊緣以指導生成，同時保留形狀和輪廓。此模式擅長於風格轉移應用，您需要保持精確的視覺邊界。

靈活的音頻處理

該模型提供三種音頻模式以滿足您的創意需求：

保留：保持來自輸入視頻的原始音頻軌道——對於嘴形同步場景至關重要
生成：創建與轉換後視覺效果相匹配的新同步音頻
無：輸出無聲視頻，用於您將在單獨添加音頻的項目

參考圖像集成

上傳參考圖像以定義轉換後視頻的外觀。該模型將應用參考的視覺特徵，而輸入視頻控制所有運動。這可以實現強大的角色驅動轉換，您可以使用參考素材中的運動為任何角色圖像製作動畫。

內置提示增強

集成提示增強器自動改進您的文本描述以獲得更好的結果。結合該模型的Gemma-3文本編碼器（理解包括角色情感、攝像機運動和照明方向的細微語言線索），此功能幫助您在不需要廣泛提示工程的情況下實現專業結果。

真實世界應用案例

角色動畫和動作轉移

通過應用參考素材中的運動將靜態角色圖像轉換為完全動畫視頻。無論您是在處理插圖角色、照片還是數字化身，姿態引導模式可以準確捕捉運動，同時參考圖像定義視覺輸出。

社交媒體舞蹈轉移

通過將病毒式舞蹈動作轉移到任何主題來創建引人入勝的內容。姿態模式逐幀跟蹤身體位置，允許您將舞蹈視頻轉換為風格化動畫——非常適合TikTok、Instagram Reels和YouTube Shorts內容。

視頻風格轉移

對現有素材應用戲劇性視覺轉換，同時保留原始運動。使用深度模式在改變視覺風格時保持場景結構，或在需要精確形狀保留時使用canny邊緣模式。

視頻製作中的角色一致性

對於製作系列內容或品牌視頻的創作者，參考圖像功能確保多個剪輯中的角色外觀保持一致。運動可以來自不同的源視頻，而角色外觀保持統一。

嘴形同步視頻創建

在轉換主題視覺外觀時保留原始音頻。此工作流程對於創建配音內容、現場素材的動畫版本或隱私保護的視頻修改特別有價值。

在WaveSpeedAI上開始

在WaveSpeedAI上使用LTX-2 19B ControlNet非常簡單：

上傳源視頻 — 這為輸出提供運動結構
添加參考圖像（可選） — 定義您想要在轉換後的視頻中獲得的外觀
編寫提示 — 描述您想要創建的內容
選擇控制模式 — 根據您的需求選擇姿態、深度或canny
選擇音頻處理 — 保留原始、生成新的或無
設置分辨率 — 480p用於快速迭代，720p用於均衡質量，1080p用於最終渲染
生成 — 提交並下載轉換後的視頻

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])