WaveSpeedAI LTX 2 19b LipSync现已登陆WaveSpeedAI
介绍 LTX-2 19B Lipsync:音频驱动的说话人头部视频生成
静态图像和动态视频内容之间的界线随着人工智能的进步而不断模糊。今天,我们很高兴地宣布 LTX-2 19B Lipsync 在 WaveSpeedAI 上的推出——这是一个强大的音频驱动模型,可以将参考肖像转换为同步的说话人头部视频,具有非凡的保真度和自然的动作。
无论您是在创建数字化身、跨语言本地化内容,还是大规模制作教育视频,LTX-2 Lipsync 都通过简单的 REST API、无冷启动和平价价格提供专业级的效果。
什么是 LTX-2 19B Lipsync?
LTX-2 Lipsync 建立在 Lightricks 开创性的 LTX-2 基础模型之上——一个 190 亿参数的扩散变压器(DiT)架构,专门为同步视听生成设计。与仅仅为口型动画的传统口型同步工具不同,LTX-2 理解音频和视频之间的双向关系:语音决定了嘴部运动,而视觉背景塑造了结果感觉的自然程度。
该模型利用具有双向交叉注意层和时间位置嵌入的不对称双流变压器架构。这种技术复杂性转化为实际益处:视听对齐中的亚帧精度、伴随语音的自然头部运动,以及与音频情感基调匹配的表情。
结果是说话人头部视频,不仅会动嘴——它们感觉栩栩如生。
主要功能
- 音频驱动生成:上传音频文件和可选的参考图像,模型会自动处理口型同步、头部运动和面部表情
- 19B 参数 DiT 架构:巨大的参数数量能够实现高度详细、时间一致的视频,具有与语音模式匹配的自然嘴部运动
- 灵活的分辨率选项:选择 480p(快速迭代)、720p(平衡质量)或 1080p(最大细节)以匹配您的工作流程和预算
- 可变时长支持:生成 5 到 20 秒的视频,长度由您的音频输入自动确定
- 自然表情合成:超越基本嘴部运动,包括伴随自然语音的微妙头部倾斜、眼球运动和面部表情
- 多语言支持:支持多种语言,处理不同语音模式和嘴形的细微差别
真实用例
数字化身和虚拟主持人
为虚拟主持人、品牌大使或 AI 动力客服代表创建一致的说话人头部视频。在改变所说话语的同时,保持视觉一致性。
内容本地化和配音
为现有视频内容配音成新语言,同时保持原始演讲者的外观。这对于全球营销活动、培训材料和需要到达国际受众的娱乐内容特别有价值。
社交媒体和营销
大规模为社交平台制作引人注目的说话人头部内容。创建个性化视频消息、产品公告或教育内容,无需传统视频制作的开销。
电子学习和教育内容
生成具有一致虚拟讲师的教学视频。完美适用于在线课程、企业培训和需要高效生产大量视频内容的教育平台。
无障碍应用
为无障碍目的创建同步视觉内容,包括手语解释视频或具有清晰视觉语音提示的叙述内容。
在 WaveSpeedAI 上开始使用
通过 WaveSpeedAI 的 API 使用 LTX-2 Lipsync 非常简单。以下是一个简单示例:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/lipsync",
{
"audio": "https://your-audio-url.com/speech.mp3",
"image": "https://your-image-url.com/portrait.jpg",
"resolution": "720p"
},
)
print(output["outputs"][0]) # 输出视频 URL
API 接受三个关键参数:
- audio(必需):您的音频文件的 URL——这驱动口型同步并确定视频长度
- image(可选):定义演讲者外观的参考肖像的 URL
- resolution(可选):输出质量——480p、720p(默认)或 1080p
随您的需求扩展的定价
LTX-2 Lipsync 定价透明且实惠:
| 分辨率 | 5 秒 | 10 秒 | 15 秒 | 20 秒 |
|---|---|---|---|---|
| 480p | $0.075 | $0.15 | $0.225 | $0.30 |
| 720p | $0.10 | $0.20 | $0.30 | $0.40 |
| 1080p | $0.15 | $0.30 | $0.45 | $0.60 |
从 480p 开始进行快速迭代,然后扩展到更高分辨率以进行最终交付。
获得最佳效果的提示
-
使用清晰的高质量音频:您的语音音频越清晰,口型同步越好。最小化背景噪音并确保一致的音量级别。
-
选择正面肖像:带有清晰可见嘴巴和中性表情的参考图像效果最好。避免极端角度或被遮挡的脸部。
-
在较低分辨率下迭代:在以 720p 或 1080p 渲染最终版本之前,以 480p 调整您的结果以节省时间和成本。
-
使用固定种子进行比较:比较变体时,设置固定种子值以隔离其他参数更改的效果。
-
保持音频在 20 秒以下:最大视频时长为 20 秒。对于更长的内容,生成多个剪辑并在后期制作中组合它们。
为什么选择 WaveSpeedAI?
在 WaveSpeedAI 上运行 LTX-2 Lipsync 意味着您可以获得:
- 无冷启动:您的请求立即开始处理——无需等待基础设施启动
- 快速推理:优化的基础设施快速交付结果,支持快速迭代
- 简单的 REST API:仅需几行代码就可以将口型同步功能集成到您的应用程序中
- 透明定价:仅为您生成的内容付费,无隐藏费用或最低承诺
立即开始创建
LTX-2 19B Lipsync 代表了可访问的、高质量说话人头部视频生成的重大进步。Lightricks 的高级 DiT 架构与 WaveSpeedAI 的优化推理基础设施相结合,使专业级口型同步触手可及,任何开发者或内容创建者都可以使用。
准备好让您的图像栩栩如生了吗?在 WaveSpeedAI 上尝试 LTX-2 Lipsync 并体验音频驱动的视频生成,轻松完成。





