← 博客

WaveSpeedAI LTX 2.3文生视频现已登陆WaveSpeedAI

LTX-2.3是一款基于DiT架构的音视频基础模型,专为在单一模型内生成同步视频与音频而设计,具备更出色的音频与画面质量。

By WaveSpeedAI 2 min read
Wavespeed Ai Ltx.2.3 Text To Video LTX-2.3是一款基于DiT架构的音视频基础模型,专为在单一模型内生成同步视频与音频而设计,具备更出色的音频与画面质量...
Try it

LTX-2.3 文字转视频:从单一提示词生成音画同步视频

LTX-2.3 是一个基于 DiT 架构的音视频基础模型,能够从单一文字提示词生成完全同步的视频与音频——彻底告别传统的先制作画面再配音的两步流程。这一升级版本现已在 WaveSpeedAI 上线,与前代相比,它带来了更清晰的画面、更丰富的音效以及明显更强的提示词遵循能力,是那些希望无需拼凑多种 AI 工具就能获得制作级成片的创作者的理想选择。

对于影视工作室、营销人员和独立创作者而言,核心卖点一句话概括:输入一段场景描述,即可获得一段声画俱全的视频。

LTX-2.3 文字转视频的工作原理

LTX-2.3 基于 Diffusion Transformer(DiT)架构,采用视频与音频数据联合训练的方式构建。该模型不再先生成无声画面再配音,而是在单次前向传播中同时生成两种模态,确保画面动作与音频线索保持同步——脚步声踩在节拍上,雨滴出现时雨声随之响起,环境音效与视觉内容完美匹配。

开发者关注的核心技术参数:

  • 输入:描述场景、运动和音频线索的文字提示词
  • 输出:内嵌同步音频的 MP4 视频
  • 分辨率:480p、720p(默认)、1080p
  • 时长:单次生成支持 5 至 20 秒
  • 约束条件:宽高须为 32 的倍数;帧数须为 8 的倍数加 1
  • 种子控制:可选固定种子以实现可复现的迭代

与输出静默视频的文字转视频模型(Sora 风格或早期扩散模型基线)相比,LTX-2.3 将视觉合成与音频生成两条流水线整合进单一基础模型,从而降低延迟、降低成本,并免去后期手动同步的工作。

准备好体验了吗?在 WaveSpeedAI 上试用 LTX-2.3 文字转视频,一分钟内生成你的第一段视频。

LTX-2.3 文字转视频的核心功能

  • 单次生成音画同步 — 无需单独的音效设计环节。模型在同一扩散过程中生成匹配的环境音、音效和氛围音频。
  • 比 LTX-2 更强的提示词遵循能力 — 2.3 版本更新增强了详细提示词与渲染场景之间的对齐精度,使复杂描述能更可靠地呈现在画面中。
  • 三档分辨率(480p / 720p / 1080p) — 以 480p 低成本迭代,确定构图后再升级至 1080p 最终输出,无需更改提示词或工作流。
  • 最长 20 秒的可变片段时长 — 足够承载广告旁白、社交钩子和短叙事节拍,同时保持较快的生成速度。
  • 基于 DiT 的基础模型 — Diffusion Transformer 架构在时间一致性和高保真纹理方面表现出色,尤其适用于动态场景。
  • 生产就绪的 REST API — 在 WaveSpeedAI 上提供,无冷启动,延迟可预期,按用量付费。
  • 种子控制实现可复现输出 — 锁定种子进行提示词变体 A/B 测试,排除随机噪声的干扰。

LTX-2.3 文字转视频的最佳使用场景

社交媒体内容批量生产

短视频平台看重发布速度和音频质量。LTX-2.3 让创作者能够直接输出附带音效的 10–15 秒 TikTok、Reels 和 Shorts 视频——无需寻找免版权音乐,无需在 Audacity 中剪辑时间轴。输入”霓虹灯闪烁的东京街头,雨水打在水坑上,远处传来爵士乐,缓慢推镜”,模型即可返回一段可直接发布的内容。

营销与效果广告

效果营销人员每周需要测试数十个创意变体。借助 LTX-2.3,广告代理公司可以以每个 10 秒广告 0.30 美元的成本生成完整的 720p 广告片,替换文案或场景描述,以远超传统制作流程的速度迭代创意方案。同步音频意味着每个变体一经生成即可投放广告网络。

分镜与预视化

导演和动画师可以将剧本场景转化为带有匹配氛围的动态预视化影像。描述剧本中的一幕——“狂风呼啸掠过沙漠山脊,骑手疾驰过镜头,头顶乌鸦鸣叫”——用生成的视频片段在正式拍摄前与摄影师、剪辑师和客户对齐创意方向。

产品演示与讲解视频

SaaS 和硬件团队可以在无需预订拍摄场地的情况下制作视频讲解原型。描述产品背景、运动方式和环境氛围,使用 LTX-2.3 生成已具备精良音效的背景 B-roll——非常适合用于落地页、用户引导流程和路演 PPT。

游戏宣传片与过场动画概念

独立游戏工作室可以快速制作宣传片剪辑和氛围概念视频。同步音频在这里尤具价值:一段 10 秒的森林伏击场景——树叶沙沙声、刀剑碰撞声、鸟儿振翅声——传递出的游戏氛围远胜于无声画面。

音乐与情绪可视化

音乐人和 lo-fi 创作者可以生成循环情绪短片——“窗上的雨声,轻柔钢琴,缓缓推近的一杯咖啡”——用于流媒体可视化、直播背景和社交帖子。

教育与叙事内容

教育工作者和故事创作者可以让文字内容焕发生机。儿童绘本作者可以制作动态朗读样片;历史频道可以为场景铺垫时刻配上视觉呈现,无需授权购买素材。

LTX-2.3 定价与 API 访问

LTX-2.3 采用透明的按用量付费定价,价格按分辨率和时长阶梯计算:

分辨率5秒10秒15秒20秒
480p$0.10$0.20$0.30$0.40
720p$0.15$0.30$0.45$0.60
1080p$0.20$0.40$0.60$0.80

这意味着一段含音频的 1080p 20 秒成品视频仅需 0.80 美元——远低于典型的素材版权费用或自由职业视频制作成本。

通过 WaveSpeedAI API 调用 LTX-2.3

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video",
    {
        "prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

开发者关注的 WaveSpeedAI 优势:

  • 无冷启动 — 首次调用延迟与稳态延迟一致
  • REST API — 语言无关,可接入任何技术栈
  • 按用量付费 — 无最低消费,无 GPU 闲置费用
  • 生产级可用性 — 专为高吞吐推理工作负载构建

获取 API 密钥并开始使用 LTX-2.3 构建应用

使用 LTX-2.3 文字转视频的最佳实践

  • 明确描述音频 — 模型会自动生成音效,但在提示词中写明”雨声”、“爵士钢琴”、“人群欢呼”或”碎石上的脚步声”,可让你对音轨有更强的控制力。
  • 描述运动而非仅描述场景 — 镜头运动(“缓慢推镜”、“手持跟拍”)、主体动作和节奏线索,比静态描述更能产出电影感画面。
  • 在 480p 迭代,在 1080p 输出 — 用最低档分辨率调试提示词,构图确定后再提升分辨率。使用固定种子确保每次调整的意义清晰可辨。
  • 将提示词限定在单一节拍 — 10 秒视频只能承载一两个叙事节点,避免将多场景脚本塞进单个提示词。
  • 在后期剪辑较长视频 — 对于超过 20 秒的内容,生成多段 LTX-2.3 视频片段后在非线性编辑器中拼接。
  • 用种子锁定进行 A/B 测试 — 比较两个提示词变体时,设置相同的 seed 值,从而将提示词变化与随机噪声隔离开来。

如需对现有图稿进行动画化,可将 LTX-2.3 与 LTX-2.3 图片转视频 配合使用,以在整个项目中保持风格一致。

常见问题

LTX-2.3 文字转视频是什么?

LTX-2.3 是一个基于 DiT 架构的音视频基础模型,能够在单次传播中从文字提示词生成同步的视频与音频,通过 WaveSpeedAI 的 REST API 提供访问。

LTX-2.3 的收费标准是多少?

起步价为 5 秒 480p 视频 0.10 美元,最高为 20 秒 1080p 视频 0.80 美元——按次计费,无需订阅。

我可以通过 API 使用 LTX-2.3 吗?

可以。LTX-2.3 通过 WaveSpeedAI REST API 提供,无冷启动。提交提示词、分辨率和时长参数后,即可收到内嵌音频的视频 URL。

LTX-2.3 会自动生成音频吗?

是的——音频与视频在同一模型传播中联合生成。你可以让模型根据视觉内容推断音频,也可以在提示词中明确描述声音,以获得更精准的控制效果。

LTX-2.3 视频最长可以生成多久?

每次生成支持 5 至 20 秒。如需更长的视频,可生成多段视频片段后在后期制作中剪辑拼接。

立即开始使用 LTX-2.3 生成音视频内容

LTX-2.3 将视频合成与音频制作整合进单一高性价比的高质量模型——非常适合需要快速获得成品视频、无需在多个工具之间来回切换的营销人员、创作者和开发者。

在 WaveSpeedAI 上试用 LTX-2.3 文字转视频 →