WaveSpeedAI LTX 2 19b Control现已登陆WaveSpeedAI

介绍 LTX-2 19B ControlNet：具有姿态、深度和边缘引导的精密视频变换

AI视频生成领域已经达到了一个新的里程碑。LTX-2 19B ControlNet为视频转换带来了结构化引导的强大功能，使创作者能够重塑视频内容，同时保持使素材具有吸引力的运动和动态效果。这款模型基于Lightricks突破性的190亿参数扩散变换器架构，代表了受控视频生成的重大飞跃。

什么是 LTX-2 19B ControlNet？

LTX-2 19B ControlNet是一个视频到视频的转换模型，它使用姿态、深度或canny边缘检测来引导生成新的视频内容，同时保持来自您的输入的运动结构。该模型基于LTX-2系列相同的强大基础——一个具有48层的非对称双流扩散变换器，同时处理视频和音频令牌。

这个模型的独特之处在于它能够生成长达20秒的同步音视频内容。该架构战略性地分配其190亿个参数：约140亿用于视频处理，50亿用于音频，在单个过程中实现了连贯的多模态输出。

ControlNet集成允许您精确控制模型如何解释您的源视频。无论您是想通过姿态检测保持人类运动，通过深度映射保持场景结构，还是通过canny检测遵循精确的边缘，您都可以完全控制转换过程。

主要功能

三种引导模式，适应各种使用场景

姿态模式：从输入视频中提取骨骼和姿态信息，是人类和角色运动转移的理想选择。该模式可以可靠地在帧之间跟踪身体位置，非常适合舞蹈序列、体育运动或任何以人类运动为焦点的内容。
深度模式：从源视频创建深度图，以保持场景结构和空间关系。当您想转换环境、改变视觉风格或应用创意效果同时保持素材基本几何形状时，请使用此模式。
Canny边缘模式：检测源素材中的边缘以引导生成，同时保持形状和轮廓。此模式在您需要保持精确视觉边界的风格转移应用中表现出色。

灵活的音频处理

该模型提供三种音频模式，以匹配您的创意需求：

保留：保持输入视频的原始音频轨道——对于唇形同步场景至关重要
生成：创建与转换后的视觉内容相匹配的新同步音频
无：输出无声视频，用于您将在后期制作中添加音频的项目

参考图像集成

上传参考图像以定义转换视频的外观。该模型将应用参考图像的视觉特征，而输入视频控制所有运动。这使得强大的角色驱动转换成为可能，您可以使用参考素材中的运动来为任何角色图像设置动画。

内置提示增强

集成的提示增强器会自动改进您的文本描述以获得更好的结果。结合该模型的Gemma-3文本编码器（理解包括角色情感、摄像机运动和照明方向在内的细微语言线索），此功能可帮助您在不进行广泛提示工程的情况下获得专业结果。

真实应用场景

角色动画和运动转移

通过应用参考素材中的运动，将静态角色图像转换为完全动画视频。无论您是在处理插图角色、照片还是数字化身，姿态引导模式都能准确捕捉运动，同时参考图像定义视觉输出。

社交媒体舞蹈转移

通过将病毒式舞蹈动作转移到任何主体，创建引人入胜的内容。姿态模式逐帧跟踪身体位置，允许您将舞蹈视频转换为风格化动画——非常适合TikTok、Instagram Reels和YouTube Shorts内容。

视频风格转移

对现有素材应用戏剧性视觉转换，同时保持原始运动。使用深度模式在改变视觉风格时保持场景结构，或者在精确的形状保护最重要时使用canny边缘模式。

视频制作中的角色一致性

对于处理系列内容或品牌视频的创作者，参考图像功能可确保多个片段中的角色外观保持一致。运动可以来自不同的源视频，而角色外观保持统一。

唇形同步视频创建

保持原始音频，同时转换主体的视觉外观。此工作流对于创建配音内容、现场素材的动画版本或隐私保护的视频修改特别有价值。

WaveSpeedAI入门

在WaveSpeedAI上使用LTX-2 19B ControlNet很简单：

上传源视频 — 这为您的输出提供运动结构
添加参考图像（可选） — 定义您在转换视频中想要的外观
编写提示 — 描述您想要创建的内容
选择控制模式 — 根据您的需求选择姿态、深度或canny
选择音频处理 — 保留原始、生成新的或无
设置分辨率 — 480p用于快速迭代，720p用于平衡质量，1080p用于最终渲染
生成 — 提交并下载您的转换视频

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])