WaveSpeedAI LTX 2 19b Control现已登陆WaveSpeedAI

免费试用 Wavespeed Ai Ltx.2 19b Control

介绍 LTX-2 19B ControlNet:具有姿态、深度和边缘引导的精密视频变换

AI视频生成领域已经达到了一个新的里程碑。LTX-2 19B ControlNet为视频转换带来了结构化引导的强大功能,使创作者能够重塑视频内容,同时保持使素材具有吸引力的运动和动态效果。这款模型基于Lightricks突破性的190亿参数扩散变换器架构,代表了受控视频生成的重大飞跃。

什么是 LTX-2 19B ControlNet?

LTX-2 19B ControlNet是一个视频到视频的转换模型,它使用姿态、深度或canny边缘检测来引导生成新的视频内容,同时保持来自您的输入的运动结构。该模型基于LTX-2系列相同的强大基础——一个具有48层的非对称双流扩散变换器,同时处理视频和音频令牌。

这个模型的独特之处在于它能够生成长达20秒的同步音视频内容。该架构战略性地分配其190亿个参数:约140亿用于视频处理,50亿用于音频,在单个过程中实现了连贯的多模态输出。

ControlNet集成允许您精确控制模型如何解释您的源视频。无论您是想通过姿态检测保持人类运动,通过深度映射保持场景结构,还是通过canny检测遵循精确的边缘,您都可以完全控制转换过程。

主要功能

三种引导模式,适应各种使用场景

  • 姿态模式:从输入视频中提取骨骼和姿态信息,是人类和角色运动转移的理想选择。该模式可以可靠地在帧之间跟踪身体位置,非常适合舞蹈序列、体育运动或任何以人类运动为焦点的内容。

  • 深度模式:从源视频创建深度图,以保持场景结构和空间关系。当您想转换环境、改变视觉风格或应用创意效果同时保持素材基本几何形状时,请使用此模式。

  • Canny边缘模式:检测源素材中的边缘以引导生成,同时保持形状和轮廓。此模式在您需要保持精确视觉边界的风格转移应用中表现出色。

灵活的音频处理

该模型提供三种音频模式,以匹配您的创意需求:

  • 保留:保持输入视频的原始音频轨道——对于唇形同步场景至关重要
  • 生成:创建与转换后的视觉内容相匹配的新同步音频
  • :输出无声视频,用于您将在后期制作中添加音频的项目

参考图像集成

上传参考图像以定义转换视频的外观。该模型将应用参考图像的视觉特征,而输入视频控制所有运动。这使得强大的角色驱动转换成为可能,您可以使用参考素材中的运动来为任何角色图像设置动画。

内置提示增强

集成的提示增强器会自动改进您的文本描述以获得更好的结果。结合该模型的Gemma-3文本编码器(理解包括角色情感、摄像机运动和照明方向在内的细微语言线索),此功能可帮助您在不进行广泛提示工程的情况下获得专业结果。

真实应用场景

角色动画和运动转移

通过应用参考素材中的运动,将静态角色图像转换为完全动画视频。无论您是在处理插图角色、照片还是数字化身,姿态引导模式都能准确捕捉运动,同时参考图像定义视觉输出。

社交媒体舞蹈转移

通过将病毒式舞蹈动作转移到任何主体,创建引人入胜的内容。姿态模式逐帧跟踪身体位置,允许您将舞蹈视频转换为风格化动画——非常适合TikTok、Instagram Reels和YouTube Shorts内容。

视频风格转移

对现有素材应用戏剧性视觉转换,同时保持原始运动。使用深度模式在改变视觉风格时保持场景结构,或者在精确的形状保护最重要时使用canny边缘模式。

视频制作中的角色一致性

对于处理系列内容或品牌视频的创作者,参考图像功能可确保多个片段中的角色外观保持一致。运动可以来自不同的源视频,而角色外观保持统一。

唇形同步视频创建

保持原始音频,同时转换主体的视觉外观。此工作流对于创建配音内容、现场素材的动画版本或隐私保护的视频修改特别有价值。

WaveSpeedAI入门

在WaveSpeedAI上使用LTX-2 19B ControlNet很简单:

  1. 上传源视频 — 这为您的输出提供运动结构
  2. 添加参考图像(可选) — 定义您在转换视频中想要的外观
  3. 编写提示 — 描述您想要创建的内容
  4. 选择控制模式 — 根据您的需求选择姿态、深度或canny
  5. 选择音频处理 — 保留原始、生成新的或无
  6. 设置分辨率 — 480p用于快速迭代,720p用于平衡质量,1080p用于最终渲染
  7. 生成 — 提交并下载您的转换视频
import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])

定价

该模型遵循基于分辨率的直接按秒计费:

分辨率5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.30$0.60$0.90$1.20

获得最佳效果的专业建议

  • 匹配起始姿态:将参考图像中的主体姿态与源视频中的起始姿态对齐,以获得无缝结果
  • 选择正确的模式:对人类/角色运动使用姿态,对场景结构使用深度,对基于边缘的精度使用canny
  • 高效迭代:以480p开始以完善您的方法,然后以720p或1080p渲染最终输出
  • 音频策略:为唇形同步项目保留音频,为新内容生成,或在您将在后期制作中添加音频时使用无

为什么选择 WaveSpeedAI?

WaveSpeedAI为运行LTX-2 19B ControlNet提供了理想的环境:

  • 无冷启动:您的作业立即开始处理,无基础设施延迟
  • 优化推理:NVIDIA优化部署确保您获得最快的生成速度
  • 透明定价:只需为您生成的内容付费,提供清晰的按秒计费
  • 生产就绪的API:直接集成到您的应用程序和工作流中

立即开始创建

LTX-2 19B ControlNet为需要精确控制视频转换的视频创作者、动画师和开发者开辟了新的可能性。ControlNet引导模式、灵活的音频处理和强大的19B DiT架构的组合以可访问的价格点提供专业级质量的结果。

准备好使用精确的结构化引导来转换您的视频了吗?在WaveSpeedAI上试用LTX-2 19B ControlNet,发现当您完全控制AI视频生成时的可能性。