WaveSpeedAI LTX 2 19b Control現已登陸WaveSpeedAI
介紹LTX-2 19B ControlNet:利用姿態、深度和邊緣引導的精密視頻轉換
AI視頻生成的景觀已經達到了新的里程碑。LTX-2 19B ControlNet為視頻轉換帶來了結構引導的力量,使創作者能夠重塑視頻內容,同時保留使素材引人入勝的運動和動態。基於Lightricks突破性的190億參數擴散變換器架構,此模型代表了受控視頻生成的重大飛躍。
什麼是LTX-2 19B ControlNet?
LTX-2 19B ControlNet是一種視頻轉視頻轉換模型,它使用姿態、深度或canny邊緣檢測來指導新視頻內容的生成,同時保持來自您輸入的運動結構。該模型基於LTX-2系列的相同強大基礎——一個具有48層的非對稱雙流擴散變換器,同時處理視頻和音頻標記。
這個模型的獨特之處在於它能夠生成長達20秒的同步音視頻內容。該架構將其190億參數進行戰略性分配:大約140億用於視頻處理,50億用於音頻,在單次傳遞中實現連貫的多模態輸出。
ControlNet集成允許您選擇模型如何準確解釋源視頻。無論您是想通過姿態檢測保留人類運動、通過深度映射保持場景結構,還是通過canny檢測跟隨精確邊緣,您都對轉換過程擁有完全控制。
主要功能
三種引導模式適應各種用例
-
姿態模式:從輸入視頻中提取骨骼和姿態信息,非常適合人類和角色動作轉移。此模式可靠地跟蹤整個幀的身體位置,非常適合舞蹈序列、運動動作或任何以人類運動為焦點的內容。
-
深度模式:從源視頻創建深度圖以保留場景結構和空間關係。當您想轉換環境、改變視覺風格或應用創意效果,同時保持素材基本幾何形狀時,可以使用此模式。
-
Canny邊緣模式:檢測源素材中的邊緣以指導生成,同時保留形狀和輪廓。此模式擅長於風格轉移應用,您需要保持精確的視覺邊界。
靈活的音頻處理
該模型提供三種音頻模式以滿足您的創意需求:
- 保留:保持來自輸入視頻的原始音頻軌道——對於嘴形同步場景至關重要
- 生成:創建與轉換後視覺效果相匹配的新同步音頻
- 無:輸出無聲視頻,用於您將在單獨添加音頻的項目
參考圖像集成
上傳參考圖像以定義轉換後視頻的外觀。該模型將應用參考的視覺特徵,而輸入視頻控制所有運動。這可以實現強大的角色驅動轉換,您可以使用參考素材中的運動為任何角色圖像製作動畫。
內置提示增強
集成提示增強器自動改進您的文本描述以獲得更好的結果。結合該模型的Gemma-3文本編碼器(理解包括角色情感、攝像機運動和照明方向的細微語言線索),此功能幫助您在不需要廣泛提示工程的情況下實現專業結果。
真實世界應用案例
角色動畫和動作轉移
通過應用參考素材中的運動將靜態角色圖像轉換為完全動畫視頻。無論您是在處理插圖角色、照片還是數字化身,姿態引導模式可以準確捕捉運動,同時參考圖像定義視覺輸出。
社交媒體舞蹈轉移
通過將病毒式舞蹈動作轉移到任何主題來創建引人入勝的內容。姿態模式逐幀跟蹤身體位置,允許您將舞蹈視頻轉換為風格化動畫——非常適合TikTok、Instagram Reels和YouTube Shorts內容。
視頻風格轉移
對現有素材應用戲劇性視覺轉換,同時保留原始運動。使用深度模式在改變視覺風格時保持場景結構,或在需要精確形狀保留時使用canny邊緣模式。
視頻製作中的角色一致性
對於製作系列內容或品牌視頻的創作者,參考圖像功能確保多個剪輯中的角色外觀保持一致。運動可以來自不同的源視頻,而角色外觀保持統一。
嘴形同步視頻創建
在轉換主題視覺外觀時保留原始音頻。此工作流程對於創建配音內容、現場素材的動畫版本或隱私保護的視頻修改特別有價值。
在WaveSpeedAI上開始
在WaveSpeedAI上使用LTX-2 19B ControlNet非常簡單:
- 上傳源視頻 — 這為輸出提供運動結構
- 添加參考圖像(可選) — 定義您想要在轉換後的視頻中獲得的外觀
- 編寫提示 — 描述您想要創建的內容
- 選擇控制模式 — 根據您的需求選擇姿態、深度或canny
- 選擇音頻處理 — 保留原始、生成新的或無
- 設置分辨率 — 480p用於快速迭代,720p用於均衡質量,1080p用於最終渲染
- 生成 — 提交並下載轉換後的視頻
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/control",
{
"video": "https://example.com/source-video.mp4",
"image": "https://example.com/reference.jpg",
"prompt": "A person dancing in a futuristic neon city",
"mode": "pose",
"audio_mode": "generate",
"resolution": "720p"
},
)
print(output["outputs"][0])
定價
該模型遵循基於分辨率的直接按秒計價:
| 分辨率 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.30 | $0.60 | $0.90 | $1.20 |
最佳結果專業提示
- 匹配起始姿態:將參考圖像中的主題姿態與源視頻中的起始姿態對齊,以獲得無縫結果
- 選擇正確的模式:使用姿態處理人類/角色運動,深度處理場景結構,canny處理基於邊緣的精度
- 高效迭代:從480p開始以優化方法,然後以720p或1080p渲染最終輸出
- 音頻策略:為嘴形同步項目保留音頻,為新鮮內容生成音頻,或在您將在後期製作中添加音頻時使用無
為什麼選擇WaveSpeedAI?
WaveSpeedAI提供運行LTX-2 19B ControlNet的理想環境:
- 無冷啟動:您的工作立即開始處理,無需基礎設施延遲
- 優化推理:NVIDIA優化部署確保您獲得最快的生成時間
- 透明定價:通過清晰的按秒計費,只需支付您生成的內容
- 生產就緒API:直接集成到您的應用程式和工作流程中
立即開始創建
LTX-2 19B ControlNet為需要精確控制視頻轉換的視頻創作者、動畫師和開發人員開闢了新的可能性。ControlNet引導模式、靈活的音頻處理和強大的19B DiT架構的組合以可訪問的價格點提供專業質量的結果。
準備好利用精確的結構引導來轉換您的視頻了嗎?在WaveSpeedAI上試試LTX-2 19B ControlNet,並發現當您對AI視頻生成擁有完全控制時可能實現什麼。





