WaveSpeedAI LTX 2 19b现已登陆WaveSpeedAI

LTX-2 19B 现已登陆WaveSpeedAI：支持音频同步的文本生成视频

制作生产级AI视频生成器的竞争刚刚跨越了一个新的里程碑。Lightricks公司的突破性文本生成视频基础模型LTX-2 19B现已在WaveSpeedAI上线——为创作者、营销人员和开发者带来了音频同步生成、多种性能模式和长达20秒的视频剪辑。

与传统视频AI模型生成无声视频、需要单独进行音频后期制作不同，LTX-2 19B在单次处理中就能生成完整的视听体验。脚步声与行走动画完美同步。环境音景与视觉环境匹配。语音般的音调和环境音效自然地从你的文本提示中产生——无需音频编辑。

LTX-2 19B是什么？

LTX-2 19B是首个基于DiT（扩散变换器）的音频视频基础模型，在一个统一系统中结合了同步声音和视频生成。拥有190亿个参数，它代表了AI生成多媒体内容方式的根本性架构转变。

由Lightricks在2025年末发布并完全开源的LTX-2已被公认为市场上最开发者友好的视频AI模型之一。它可以在消费级GPU上高效运行，以高达1080p的分辨率提供生产级输出质量，而且——对WaveSpeedAI用户至关重要的是——可通过即用型REST API获得，没有冷启动延迟，定价经济。

该模型支持灵活的宽高比（16:9横屏和9:16竖屏）、5至20秒的可变时长，以及三个分辨率等级（480p、720p、1080p）来平衡质量、速度和成本。

LTX-2的独特优势

音频视频同步生成

LTX-2的决定性特征是其生成与视觉内容自然对齐的音频的能力。当你提示”城市天际线上的雷暴”时，你得到的是闪电以及隆隆的雷鸣声。“昏暗酒吧里表演的爵士钢琴家”不仅会产生琴键上的动画手指，还会产生现场演奏的环境音景。

这不是叠加在顶部的背景音乐——它是通过与创建视觉效果相同的扩散过程生成的情境音频，确保时间和语义对齐。

生产级质量

LTX-2 19B已与Sora 2和Kling 2.6等顶级竞争对手进行了基准测试。虽然Sora 2在某些使用场景中的照片真实感领先，但LTX-2提供了一个令人信服的平衡：角色反应自然、运动时间连贯，而且独特之处在于——支持20秒视频生成，相比之下Sora 2的上限是12秒。

根据行业对比，LTX-2在视觉质量上与Sora 2接近，同时成本约低40%，并能提供更长的时长输出。

灵活的分辨率和宽高比

WaveSpeedAI的实现给你完全的输出格式控制：

480p：快速迭代，成本最低——理想用于快速原型设计和测试多个提示
720p：质量和成本的平衡，适合大多数社交媒体和网络用途
1080p：最大细节，用于最终交付物、演示和高端内容

你可以在16:9横屏（YouTube、桌面）和9:16竖屏（TikTok、Instagram Reels、Stories）之间切换，以匹配平台要求，无需额外工具。

可变时长控制

生成5至20秒的视频剪辑——足够长来建立叙事节奏、展示产品演示或创建完整的社交媒体片段。这种扩展的时长使LTX-2在竞争中脱颖而出，减少了拼接多个生成内容的需求。

真实应用场景

短视频社交内容

快速创建TikTok、Reels和Stories，内置音频。无需单独音源、许可或手动同步。提示”滑板穿过霓虹灯隧道”，即可获得随时可上传的完整视频。

产品演示

使用增强视觉叙事的环境声音生成宣传视频。比如”阳光充足的厨房里将咖啡倒入陶瓷杯”这样的提示会产生蒸汽、运动以及液体击打陶瓷的声音。

营销和广告

制作具有整体视听设计的广告内容。LTX-2生成上下文相关音频的能力意味着你的产品镜头配有匹配的音景——无需音效库。

原型设计和概念可视化

快速可视化想法供利益相关者审查。在480p下迭代以测试提示变体，一旦概念确定就以1080p渲染最终版本。固定的种子参数确保了迭代之间的可重现性。

内容创作者和YouTubers

生成B级镜头、片头或带有同步声音的叙事序列。20秒的时长窗口非常适合建立镜头、过渡或独立故事节奏。

如何开始使用WaveSpeedAI

在WaveSpeedAI上使用LTX-2 19B非常简单：

导航到模型页面：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
编写提示：描述场景、动作和任何特定的音频线索（例如”沙砾上的脚步”、“远处的雷声”、“爵士钢琴”）
配置设置：
- 分辨率：选择480p（快速迭代）、720p（平衡）或1080p（最终质量）
- 宽高比：16:9用于横屏，9:16用于竖屏
- 时长：根据内容需求选择5-20秒
- 种子（可选）：设置固定值以获得可重现的结果
运行：提交你的请求，接收带有同步音频的视频——无需后期制作

WaveSpeedAI处理所有基础设施：即时冷启动、优化推理和按秒计费。你只需为生成的内容付费，定价从5秒480p视频的$0.06起。

Python SDK示例

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # 带音频的视频URL

随需扩展的定价

WaveSpeedAI提供根据分辨率和时长扩展的按使用量付费：

分辨率	5秒	10秒	15秒	20秒
480p	$0.06	$0.12	$0.18	$0.24
720p	$0.08	$0.16	$0.24	$0.32
1080p	$0.12	$0.24	$0.36	$0.48

这种定价模式确保你可以在较低分辨率下自由迭代，为最终输出预留高质量渲染——最大限度地提高创意灵活性和成本效率。

为什么选择WaveSpeedAI？

WaveSpeedAI提供生产工作流所需的基础设施优势：

无冷启动：即时推理，即使在长时间空闲后也不例外
快速推理：优化的GPU分配以减少等待时间
经济定价：仅为你使用的秒数和分辨率付费
REST API：简单集成到现有工作流、自动化管道或自定义应用程序
透明计费：无隐藏费用、订阅等级或计算积分

获得最佳效果的专业建议

具体描述音频：虽然音频自动生成，但在提示中描述声音（“雷暴”、“爵士音乐”、“脚步声”）有助于引导模型
宽高比匹配平台：对竖屏优先平台（TikTok、Stories）使用9:16，对YouTube和桌面使用16:9
在480p下迭代：以较低成本调整提示，然后升级到1080p用于最终交付
使用固定种子：测试提示变体时，锁定种子以隔离更改的影响
组合多个视频：对于较长的内容，生成20秒的片段并在后期编辑中组合它们

视听AI的未来

LTX-2 19B代表了视频AI的根本性转变——从生成无声视频到生成完整的视听体验。作为首个基于DiT的音频视频基础模型，它为创作者应该期待从生成式视频工具中获得什么设定了新的基准。

借助WaveSpeedAI处理基础设施和Lightricks开源模型提供的尖端生成质量，你可以专注于重要的事情：创建引人注目的内容。

立即尝试LTX-2 19B

准备好生成第一个同步音频视频剪辑了吗？前往WaveSpeedAI上的LTX-2 19B模型页面开始创建。无论你是独立创作者、营销团队，还是构建自动化内容管道的开发者，LTX-2 19B都能提供生产级结果，定价随需求而调整。

立即开始生成：https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video