WaveSpeedAI LTX 2 19b Control現已登陸WaveSpeedAI

免費試用 Wavespeed Ai Ltx.2 19b Control

介紹LTX-2 19B ControlNet:利用姿態、深度和邊緣引導的精密視頻轉換

AI視頻生成的景觀已經達到了新的里程碑。LTX-2 19B ControlNet為視頻轉換帶來了結構引導的力量,使創作者能夠重塑視頻內容,同時保留使素材引人入勝的運動和動態。基於Lightricks突破性的190億參數擴散變換器架構,此模型代表了受控視頻生成的重大飛躍。

什麼是LTX-2 19B ControlNet?

LTX-2 19B ControlNet是一種視頻轉視頻轉換模型,它使用姿態、深度或canny邊緣檢測來指導新視頻內容的生成,同時保持來自您輸入的運動結構。該模型基於LTX-2系列的相同強大基礎——一個具有48層的非對稱雙流擴散變換器,同時處理視頻和音頻標記。

這個模型的獨特之處在於它能夠生成長達20秒的同步音視頻內容。該架構將其190億參數進行戰略性分配:大約140億用於視頻處理,50億用於音頻,在單次傳遞中實現連貫的多模態輸出。

ControlNet集成允許您選擇模型如何準確解釋源視頻。無論您是想通過姿態檢測保留人類運動、通過深度映射保持場景結構,還是通過canny檢測跟隨精確邊緣,您都對轉換過程擁有完全控制。

主要功能

三種引導模式適應各種用例

  • 姿態模式:從輸入視頻中提取骨骼和姿態信息,非常適合人類和角色動作轉移。此模式可靠地跟蹤整個幀的身體位置,非常適合舞蹈序列、運動動作或任何以人類運動為焦點的內容。

  • 深度模式:從源視頻創建深度圖以保留場景結構和空間關係。當您想轉換環境、改變視覺風格或應用創意效果,同時保持素材基本幾何形狀時,可以使用此模式。

  • Canny邊緣模式:檢測源素材中的邊緣以指導生成,同時保留形狀和輪廓。此模式擅長於風格轉移應用,您需要保持精確的視覺邊界。

靈活的音頻處理

該模型提供三種音頻模式以滿足您的創意需求:

  • 保留:保持來自輸入視頻的原始音頻軌道——對於嘴形同步場景至關重要
  • 生成:創建與轉換後視覺效果相匹配的新同步音頻
  • :輸出無聲視頻,用於您將在單獨添加音頻的項目

參考圖像集成

上傳參考圖像以定義轉換後視頻的外觀。該模型將應用參考的視覺特徵,而輸入視頻控制所有運動。這可以實現強大的角色驅動轉換,您可以使用參考素材中的運動為任何角色圖像製作動畫。

內置提示增強

集成提示增強器自動改進您的文本描述以獲得更好的結果。結合該模型的Gemma-3文本編碼器(理解包括角色情感、攝像機運動和照明方向的細微語言線索),此功能幫助您在不需要廣泛提示工程的情況下實現專業結果。

真實世界應用案例

角色動畫和動作轉移

通過應用參考素材中的運動將靜態角色圖像轉換為完全動畫視頻。無論您是在處理插圖角色、照片還是數字化身,姿態引導模式可以準確捕捉運動,同時參考圖像定義視覺輸出。

社交媒體舞蹈轉移

通過將病毒式舞蹈動作轉移到任何主題來創建引人入勝的內容。姿態模式逐幀跟蹤身體位置,允許您將舞蹈視頻轉換為風格化動畫——非常適合TikTok、Instagram Reels和YouTube Shorts內容。

視頻風格轉移

對現有素材應用戲劇性視覺轉換,同時保留原始運動。使用深度模式在改變視覺風格時保持場景結構,或在需要精確形狀保留時使用canny邊緣模式。

視頻製作中的角色一致性

對於製作系列內容或品牌視頻的創作者,參考圖像功能確保多個剪輯中的角色外觀保持一致。運動可以來自不同的源視頻,而角色外觀保持統一。

嘴形同步視頻創建

在轉換主題視覺外觀時保留原始音頻。此工作流程對於創建配音內容、現場素材的動畫版本或隱私保護的視頻修改特別有價值。

在WaveSpeedAI上開始

在WaveSpeedAI上使用LTX-2 19B ControlNet非常簡單:

  1. 上傳源視頻 — 這為輸出提供運動結構
  2. 添加參考圖像(可選) — 定義您想要在轉換後的視頻中獲得的外觀
  3. 編寫提示 — 描述您想要創建的內容
  4. 選擇控制模式 — 根據您的需求選擇姿態、深度或canny
  5. 選擇音頻處理 — 保留原始、生成新的或無
  6. 設置分辨率 — 480p用於快速迭代,720p用於均衡質量,1080p用於最終渲染
  7. 生成 — 提交並下載轉換後的視頻
import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])

定價

該模型遵循基於分辨率的直接按秒計價:

分辨率5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.30$0.60$0.90$1.20

最佳結果專業提示

  • 匹配起始姿態:將參考圖像中的主題姿態與源視頻中的起始姿態對齊,以獲得無縫結果
  • 選擇正確的模式:使用姿態處理人類/角色運動,深度處理場景結構,canny處理基於邊緣的精度
  • 高效迭代:從480p開始以優化方法,然後以720p或1080p渲染最終輸出
  • 音頻策略:為嘴形同步項目保留音頻,為新鮮內容生成音頻,或在您將在後期製作中添加音頻時使用無

為什麼選擇WaveSpeedAI?

WaveSpeedAI提供運行LTX-2 19B ControlNet的理想環境:

  • 無冷啟動:您的工作立即開始處理,無需基礎設施延遲
  • 優化推理:NVIDIA優化部署確保您獲得最快的生成時間
  • 透明定價:通過清晰的按秒計費,只需支付您生成的內容
  • 生產就緒API:直接集成到您的應用程式和工作流程中

立即開始創建

LTX-2 19B ControlNet為需要精確控制視頻轉換的視頻創作者、動畫師和開發人員開闢了新的可能性。ControlNet引導模式、靈活的音頻處理和強大的19B DiT架構的組合以可訪問的價格點提供專業質量的結果。

準備好利用精確的結構引導來轉換您的視頻了嗎?在WaveSpeedAI上試試LTX-2 19B ControlNet,並發現當您對AI視頻生成擁有完全控制時可能實現什麼。