WaveSpeedAI LTX 2 19b现已登陆WaveSpeedAI
免费试用 Wavespeed Ai Ltx.2 19b Text To VideoLTX-2 19B 现已登陆WaveSpeedAI:支持音频同步的文本生成视频
制作生产级AI视频生成器的竞争刚刚跨越了一个新的里程碑。Lightricks公司的突破性文本生成视频基础模型LTX-2 19B现已在WaveSpeedAI上线——为创作者、营销人员和开发者带来了音频同步生成、多种性能模式和长达20秒的视频剪辑。
与传统视频AI模型生成无声视频、需要单独进行音频后期制作不同,LTX-2 19B在单次处理中就能生成完整的视听体验。脚步声与行走动画完美同步。环境音景与视觉环境匹配。语音般的音调和环境音效自然地从你的文本提示中产生——无需音频编辑。
LTX-2 19B是什么?
LTX-2 19B是首个基于DiT(扩散变换器)的音频视频基础模型,在一个统一系统中结合了同步声音和视频生成。拥有190亿个参数,它代表了AI生成多媒体内容方式的根本性架构转变。
由Lightricks在2025年末发布并完全开源的LTX-2已被公认为市场上最开发者友好的视频AI模型之一。它可以在消费级GPU上高效运行,以高达1080p的分辨率提供生产级输出质量,而且——对WaveSpeedAI用户至关重要的是——可通过即用型REST API获得,没有冷启动延迟,定价经济。
该模型支持灵活的宽高比(16:9横屏和9:16竖屏)、5至20秒的可变时长,以及三个分辨率等级(480p、720p、1080p)来平衡质量、速度和成本。
LTX-2的独特优势
音频视频同步生成
LTX-2的决定性特征是其生成与视觉内容自然对齐的音频的能力。当你提示”城市天际线上的雷暴”时,你得到的是闪电以及隆隆的雷鸣声。“昏暗酒吧里表演的爵士钢琴家”不仅会产生琴键上的动画手指,还会产生现场演奏的环境音景。
这不是叠加在顶部的背景音乐——它是通过与创建视觉效果相同的扩散过程生成的情境音频,确保时间和语义对齐。
生产级质量
LTX-2 19B已与Sora 2和Kling 2.6等顶级竞争对手进行了基准测试。虽然Sora 2在某些使用场景中的照片真实感领先,但LTX-2提供了一个令人信服的平衡:角色反应自然、运动时间连贯,而且独特之处在于——支持20秒视频生成,相比之下Sora 2的上限是12秒。
根据行业对比,LTX-2在视觉质量上与Sora 2接近,同时成本约低40%,并能提供更长的时长输出。
灵活的分辨率和宽高比
WaveSpeedAI的实现给你完全的输出格式控制:
- 480p:快速迭代,成本最低——理想用于快速原型设计和测试多个提示
- 720p:质量和成本的平衡,适合大多数社交媒体和网络用途
- 1080p:最大细节,用于最终交付物、演示和高端内容
你可以在16:9横屏(YouTube、桌面)和9:16竖屏(TikTok、Instagram Reels、Stories)之间切换,以匹配平台要求,无需额外工具。
可变时长控制
生成5至20秒的视频剪辑——足够长来建立叙事节奏、展示产品演示或创建完整的社交媒体片段。这种扩展的时长使LTX-2在竞争中脱颖而出,减少了拼接多个生成内容的需求。
真实应用场景
短视频社交内容
快速创建TikTok、Reels和Stories,内置音频。无需单独音源、许可或手动同步。提示”滑板穿过霓虹灯隧道”,即可获得随时可上传的完整视频。
产品演示
使用增强视觉叙事的环境声音生成宣传视频。比如”阳光充足的厨房里将咖啡倒入陶瓷杯”这样的提示会产生蒸汽、运动以及液体击打陶瓷的声音。
营销和广告
制作具有整体视听设计的广告内容。LTX-2生成上下文相关音频的能力意味着你的产品镜头配有匹配的音景——无需音效库。
原型设计和概念可视化
快速可视化想法供利益相关者审查。在480p下迭代以测试提示变体,一旦概念确定就以1080p渲染最终版本。固定的种子参数确保了迭代之间的可重现性。
内容创作者和YouTubers
生成B级镜头、片头或带有同步声音的叙事序列。20秒的时长窗口非常适合建立镜头、过渡或独立故事节奏。
如何开始使用WaveSpeedAI
在WaveSpeedAI上使用LTX-2 19B非常简单:
-
导航到模型页面:https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
-
编写提示:描述场景、动作和任何特定的音频线索(例如”沙砾上的脚步”、“远处的雷声”、“爵士钢琴”)
-
配置设置:
- 分辨率:选择480p(快速迭代)、720p(平衡)或1080p(最终质量)
- 宽高比:16:9用于横屏,9:16用于竖屏
- 时长:根据内容需求选择5-20秒
- 种子(可选):设置固定值以获得可重现的结果
-
运行:提交你的请求,接收带有同步音频的视频——无需后期制作
WaveSpeedAI处理所有基础设施:即时冷启动、优化推理和按秒计费。你只需为生成的内容付费,定价从5秒480p视频的$0.06起。
Python SDK示例
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/text-to-video",
{
"prompt": "A golden retriever playing in autumn leaves, slow motion",
"resolution": "720p",
"aspect_ratio": "16:9",
"duration": 10
},
)
print(output["outputs"][0]) # 带音频的视频URL
随需扩展的定价
WaveSpeedAI提供根据分辨率和时长扩展的按使用量付费:
| 分辨率 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.06 | $0.12 | $0.18 | $0.24 |
| 720p | $0.08 | $0.16 | $0.24 | $0.32 |
| 1080p | $0.12 | $0.24 | $0.36 | $0.48 |
这种定价模式确保你可以在较低分辨率下自由迭代,为最终输出预留高质量渲染——最大限度地提高创意灵活性和成本效率。
为什么选择WaveSpeedAI?
WaveSpeedAI提供生产工作流所需的基础设施优势:
- 无冷启动:即时推理,即使在长时间空闲后也不例外
- 快速推理:优化的GPU分配以减少等待时间
- 经济定价:仅为你使用的秒数和分辨率付费
- REST API:简单集成到现有工作流、自动化管道或自定义应用程序
- 透明计费:无隐藏费用、订阅等级或计算积分
获得最佳效果的专业建议
- 具体描述音频:虽然音频自动生成,但在提示中描述声音(“雷暴”、“爵士音乐”、“脚步声”)有助于引导模型
- 宽高比匹配平台:对竖屏优先平台(TikTok、Stories)使用9:16,对YouTube和桌面使用16:9
- 在480p下迭代:以较低成本调整提示,然后升级到1080p用于最终交付
- 使用固定种子:测试提示变体时,锁定种子以隔离更改的影响
- 组合多个视频:对于较长的内容,生成20秒的片段并在后期编辑中组合它们
视听AI的未来
LTX-2 19B代表了视频AI的根本性转变——从生成无声视频到生成完整的视听体验。作为首个基于DiT的音频视频基础模型,它为创作者应该期待从生成式视频工具中获得什么设定了新的基准。
借助WaveSpeedAI处理基础设施和Lightricks开源模型提供的尖端生成质量,你可以专注于重要的事情:创建引人注目的内容。
立即尝试LTX-2 19B
准备好生成第一个同步音频视频剪辑了吗?前往WaveSpeedAI上的LTX-2 19B模型页面开始创建。无论你是独立创作者、营销团队,还是构建自动化内容管道的开发者,LTX-2 19B都能提供生产级结果,定价随需求而调整。
立即开始生成:https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video

