WaveSpeedAI LTX 2 19b现已登陆WaveSpeedAI

免费试用 Wavespeed Ai Ltx.2 19b Text To Video

LTX-2 19B 现已登陆WaveSpeedAI:支持音频同步的文本生成视频

制作生产级AI视频生成器的竞争刚刚跨越了一个新的里程碑。Lightricks公司的突破性文本生成视频基础模型LTX-2 19B现已在WaveSpeedAI上线——为创作者、营销人员和开发者带来了音频同步生成、多种性能模式和长达20秒的视频剪辑。

与传统视频AI模型生成无声视频、需要单独进行音频后期制作不同,LTX-2 19B在单次处理中就能生成完整的视听体验。脚步声与行走动画完美同步。环境音景与视觉环境匹配。语音般的音调和环境音效自然地从你的文本提示中产生——无需音频编辑。

LTX-2 19B是什么?

LTX-2 19B是首个基于DiT(扩散变换器)的音频视频基础模型,在一个统一系统中结合了同步声音和视频生成。拥有190亿个参数,它代表了AI生成多媒体内容方式的根本性架构转变。

由Lightricks在2025年末发布并完全开源的LTX-2已被公认为市场上最开发者友好的视频AI模型之一。它可以在消费级GPU上高效运行,以高达1080p的分辨率提供生产级输出质量,而且——对WaveSpeedAI用户至关重要的是——可通过即用型REST API获得,没有冷启动延迟,定价经济。

该模型支持灵活的宽高比(16:9横屏和9:16竖屏)、5至20秒的可变时长,以及三个分辨率等级(480p、720p、1080p)来平衡质量、速度和成本。

LTX-2的独特优势

音频视频同步生成

LTX-2的决定性特征是其生成与视觉内容自然对齐的音频的能力。当你提示”城市天际线上的雷暴”时,你得到的是闪电以及隆隆的雷鸣声。“昏暗酒吧里表演的爵士钢琴家”不仅会产生琴键上的动画手指,还会产生现场演奏的环境音景。

这不是叠加在顶部的背景音乐——它是通过与创建视觉效果相同的扩散过程生成的情境音频,确保时间和语义对齐。

生产级质量

LTX-2 19B已与Sora 2和Kling 2.6等顶级竞争对手进行了基准测试。虽然Sora 2在某些使用场景中的照片真实感领先,但LTX-2提供了一个令人信服的平衡:角色反应自然、运动时间连贯,而且独特之处在于——支持20秒视频生成,相比之下Sora 2的上限是12秒。

根据行业对比,LTX-2在视觉质量上与Sora 2接近,同时成本约低40%,并能提供更长的时长输出。

灵活的分辨率和宽高比

WaveSpeedAI的实现给你完全的输出格式控制:

  • 480p:快速迭代,成本最低——理想用于快速原型设计和测试多个提示
  • 720p:质量和成本的平衡,适合大多数社交媒体和网络用途
  • 1080p:最大细节,用于最终交付物、演示和高端内容

你可以在16:9横屏(YouTube、桌面)和9:16竖屏(TikTok、Instagram Reels、Stories)之间切换,以匹配平台要求,无需额外工具。

可变时长控制

生成5至20秒的视频剪辑——足够长来建立叙事节奏、展示产品演示或创建完整的社交媒体片段。这种扩展的时长使LTX-2在竞争中脱颖而出,减少了拼接多个生成内容的需求。

真实应用场景

短视频社交内容

快速创建TikTok、Reels和Stories,内置音频。无需单独音源、许可或手动同步。提示”滑板穿过霓虹灯隧道”,即可获得随时可上传的完整视频。

产品演示

使用增强视觉叙事的环境声音生成宣传视频。比如”阳光充足的厨房里将咖啡倒入陶瓷杯”这样的提示会产生蒸汽、运动以及液体击打陶瓷的声音。

营销和广告

制作具有整体视听设计的广告内容。LTX-2生成上下文相关音频的能力意味着你的产品镜头配有匹配的音景——无需音效库。

原型设计和概念可视化

快速可视化想法供利益相关者审查。在480p下迭代以测试提示变体,一旦概念确定就以1080p渲染最终版本。固定的种子参数确保了迭代之间的可重现性。

内容创作者和YouTubers

生成B级镜头、片头或带有同步声音的叙事序列。20秒的时长窗口非常适合建立镜头、过渡或独立故事节奏。

如何开始使用WaveSpeedAI

在WaveSpeedAI上使用LTX-2 19B非常简单:

  1. 导航到模型页面https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video

  2. 编写提示:描述场景、动作和任何特定的音频线索(例如”沙砾上的脚步”、“远处的雷声”、“爵士钢琴”)

  3. 配置设置

    • 分辨率:选择480p(快速迭代)、720p(平衡)或1080p(最终质量)
    • 宽高比:16:9用于横屏,9:16用于竖屏
    • 时长:根据内容需求选择5-20秒
    • 种子(可选):设置固定值以获得可重现的结果
  4. 运行:提交你的请求,接收带有同步音频的视频——无需后期制作

WaveSpeedAI处理所有基础设施:即时冷启动、优化推理和按秒计费。你只需为生成的内容付费,定价从5秒480p视频的$0.06起。

Python SDK示例

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # 带音频的视频URL

随需扩展的定价

WaveSpeedAI提供根据分辨率和时长扩展的按使用量付费:

分辨率5秒10秒15秒20秒
480p$0.06$0.12$0.18$0.24
720p$0.08$0.16$0.24$0.32
1080p$0.12$0.24$0.36$0.48

这种定价模式确保你可以在较低分辨率下自由迭代,为最终输出预留高质量渲染——最大限度地提高创意灵活性和成本效率。

为什么选择WaveSpeedAI?

WaveSpeedAI提供生产工作流所需的基础设施优势:

  • 无冷启动:即时推理,即使在长时间空闲后也不例外
  • 快速推理:优化的GPU分配以减少等待时间
  • 经济定价:仅为你使用的秒数和分辨率付费
  • REST API:简单集成到现有工作流、自动化管道或自定义应用程序
  • 透明计费:无隐藏费用、订阅等级或计算积分

获得最佳效果的专业建议

  • 具体描述音频:虽然音频自动生成,但在提示中描述声音(“雷暴”、“爵士音乐”、“脚步声”)有助于引导模型
  • 宽高比匹配平台:对竖屏优先平台(TikTok、Stories)使用9:16,对YouTube和桌面使用16:9
  • 在480p下迭代:以较低成本调整提示,然后升级到1080p用于最终交付
  • 使用固定种子:测试提示变体时,锁定种子以隔离更改的影响
  • 组合多个视频:对于较长的内容,生成20秒的片段并在后期编辑中组合它们

视听AI的未来

LTX-2 19B代表了视频AI的根本性转变——从生成无声视频到生成完整的视听体验。作为首个基于DiT的音频视频基础模型,它为创作者应该期待从生成式视频工具中获得什么设定了新的基准。

借助WaveSpeedAI处理基础设施和Lightricks开源模型提供的尖端生成质量,你可以专注于重要的事情:创建引人注目的内容。

立即尝试LTX-2 19B

准备好生成第一个同步音频视频剪辑了吗?前往WaveSpeedAI上的LTX-2 19B模型页面开始创建。无论你是独立创作者、营销团队,还是构建自动化内容管道的开发者,LTX-2 19B都能提供生产级结果,定价随需求而调整。

立即开始生成https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video