WaveSpeedAI LTX 2.3 Text-to-Video LoRA现已登陆WaveSpeedAI
支持LoRA的LTX-2.3是一款基于DiT架构的音视频基础模型,专为生成具有自定义风格、动作或形象的同步音视频内容而设计。
LTX-2.3 文本生成视频(支持 LoRA)现已登陆 WaveSpeedAI
想象与视频之间的距离从未如此之近。今天,我们很高兴宣布 LTX-2.3 文本生成视频(支持 LoRA) 正式上线 WaveSpeedAI —— 这款模型不仅能从文本生成视频,还能通过轻量级 LoRA 适配器,让你以自定义风格、角色和运动方式打造专属视觉。
无论你是在构建品牌形象、为固定角色制作动画,还是创作具有标志性电影质感的内容,LTX-2.3 with LoRA 都能给你通用视频生成模型无法企及的精准控制力。
什么是 LTX-2.3 文本生成视频 LoRA?
LTX-2.3 是 Lightricks LTX 模型家族的最新进化版本 —— 一款基于扩散 Transformer(DiT)架构的基础模型,能够在单次推理中从单个文本提示同步生成视频与音频。无需独立的音频制作流程,无需后处理补救措施。你描述一个场景,画面与声音同步呈现。
本次发布尤为强大的亮点在于加入了 LoRA(低秩自适应)支持。LoRA 适配器是轻量级可训练模块,叠加在基础模型之上,将其输出引导至特定风格、角色或运动模式。你最多可同时叠加三个 LoRA 适配器,将自定义美学与 LTX-2.3 的完整生成能力相融合。
结果:一款既通用又高度可定制的模型。
核心功能
升级的视觉与音频质量
LTX-2.3 搭载了全新设计的 VAE(变分自编码器),使用更高质量的数据进行训练。细腻纹理、发丝、文字叠层和边缘细节比以往版本更清晰、更真实。音频方面,训练数据已针对静音间隙、噪声和伪影进行过滤,全新声码器提供更干净、更可靠的音效,与视觉内容的对齐更加紧密。
增强的提示词遵循能力
全新的门控注意力文本连接器让模型更忠实地执行你的提示词。时间节奏、运动方式、表情和音频线索的描述能直接映射到生成输出中,缩小你所写与所见之间的差距。
LoRA 自定义
每次生成最多可应用三个 LoRA 适配器,每个适配器均可独立调整权重。这让你能够:
- 锁定视觉风格 —— 电影质感、动漫美学、品牌配色方案
- 保持角色一致性 —— 跨片段复用固定面孔、人物或吉祥物
- 训练自定义运动模式 —— 标志性动作、镜头技法、编舞方式
- 组合适配器 —— 在单次生成中叠加角色 LoRA、风格 LoRA 和运动 LoRA
灵活的输出选项
- 分辨率:480p 快速迭代、720p 均衡质量、1080p 最终交付
- 时长:生成 5 至 20 秒的片段
- 同步音频:音频与视频在单次模型推理中同步生成,可通过提示词线索引导音频效果,如”雨打窗玻璃”、“轻快的爵士乐”或”人群欢呼”
透明、可预期的定价
每次生成的费用根据分辨率和时长明确计算:
| 分辨率 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.25 | $0.50 | $0.75 | $1.00 |
无隐藏费用,无意外算力收费。
真实应用场景
规模化品牌内容
营销团队可以基于品牌视觉标识 —— 标志处理方式、配色方案、动态图形风格 —— 训练一个 LoRA,然后仅凭文字描述生成符合品牌调性的视频内容。需要 20 种产品发布视频变体?写好提示词,应用品牌 LoRA,直接生成。
角色驱动的叙事创作
围绕特定角色构建系列或营销活动的创作者,可以从参考片段训练人物形象 LoRA。每一支新视频都能保持相同的角色外观,让剧集内容和社交媒体系列在视觉上保持一致,无需手动剪辑。
社交媒体内容创作
5 至 20 秒的时长范围完美契合 TikTok、Instagram Reels 和 YouTube Shorts 的短视频需求。直接从创意简报生成带同步音频的吸睛片段,先在 480p 下迭代,再以 1080p 渲染最终版本。
快速原型与概念可视化
广告公司和制作团队可以利用文本生成视频功能,快速为客户提案呈现创意概念。描述场景,应用电影风格 LoRA,几分钟内生成精良预览,而非耗费数天。
动态设计与视觉特效探索
针对特定镜头运动训练 LoRA —— 跟踪镜头、推拉变焦、平滑横移 —— 并应用到任意场景。这为动态设计师提供了一个天然契合其电影语言的起点。
在 WaveSpeedAI 上快速上手
生成你的第一支视频只需几行代码:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/text-to-video-lora",
{
"prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
"loras": [
{"path": "your-style-lora-url", "scale": 0.8}
],
"resolution": "720p",
"duration": 10,
},
)
print(output["outputs"][0])
在 WaveSpeedAI 上运行意味着无冷启动 —— 你的请求直接命中热备 GPU,立即开始生成。结合实惠的按次计费定价和简洁的 REST API,你可以将视频生成无缝集成到生产工作流中,无需承担任何基础设施开销。
最佳实践技巧
- 低成本迭代:先在 480p 下打磨提示词和 LoRA 组合,再以 1080p 渲染最终版本
- 精确描述音频:在提示词中加入音频线索 —— “轻柔钢琴曲”、“海浪声”、“砾石上的脚步声” —— 以获得更具意图的音景效果
- 使用固定种子:比较提示词变体或 LoRA 权重时,锁定种子以隔离真正发生变化的因素
- 策略性叠加 LoRA:将风格适配器与运动适配器组合,产出两者单独都无法实现的效果,通过调节各自权重寻找最佳平衡
更宏观的视角
2026 年,AI 视频生成已跨越了一个重要门槛。曾经只能产出模糊数秒片段的新奇技术,如今已进化为具备电影级输出、连贯运动和同步音频的生产就绪工具。LTX-2.3 with LoRA 支持代表了这一演进的下一步:不仅是更好的基础质量,更是让模型成为你的模型的能力。
自定义 LoRA 将通用视频模型转变为能够理解你的品牌、你的角色和你的美学的专属创作工具。这就是生成通用内容与生成属于你的内容之间的本质区别。
立即开始创作
LTX-2.3 文本生成视频(支持 LoRA)现已在 WaveSpeedAI 上线。前往模型页面探索 API、运行你的首次生成,亲眼见证当顶尖视频生成能力与自定义 LoRA 适配器的精准控制相结合时,究竟能创造出什么。
你的文字。你的风格。你的视频。





