WaveSpeedAI LTX 2.3 Text-to-Video LoRA现已登陆WaveSpeedAI

LTX-2.3 文本生成视频（支持 LoRA）现已登陆 WaveSpeedAI

想象与视频之间的距离从未如此之近。今天，我们很高兴宣布 LTX-2.3 文本生成视频（支持 LoRA） 正式上线 WaveSpeedAI —— 这款模型不仅能从文本生成视频，还能通过轻量级 LoRA 适配器，让你以自定义风格、角色和运动方式打造专属视觉。

无论你是在构建品牌形象、为固定角色制作动画，还是创作具有标志性电影质感的内容，LTX-2.3 with LoRA 都能给你通用视频生成模型无法企及的精准控制力。

什么是 LTX-2.3 文本生成视频 LoRA？

LTX-2.3 是 Lightricks LTX 模型家族的最新进化版本 —— 一款基于扩散 Transformer（DiT）架构的基础模型，能够在单次推理中从单个文本提示同步生成视频与音频。无需独立的音频制作流程，无需后处理补救措施。你描述一个场景，画面与声音同步呈现。

本次发布尤为强大的亮点在于加入了 LoRA（低秩自适应）支持。LoRA 适配器是轻量级可训练模块，叠加在基础模型之上，将其输出引导至特定风格、角色或运动模式。你最多可同时叠加三个 LoRA 适配器，将自定义美学与 LTX-2.3 的完整生成能力相融合。

结果：一款既通用又高度可定制的模型。

核心功能

升级的视觉与音频质量

LTX-2.3 搭载了全新设计的 VAE（变分自编码器），使用更高质量的数据进行训练。细腻纹理、发丝、文字叠层和边缘细节比以往版本更清晰、更真实。音频方面，训练数据已针对静音间隙、噪声和伪影进行过滤，全新声码器提供更干净、更可靠的音效，与视觉内容的对齐更加紧密。

增强的提示词遵循能力

全新的门控注意力文本连接器让模型更忠实地执行你的提示词。时间节奏、运动方式、表情和音频线索的描述能直接映射到生成输出中，缩小你所写与所见之间的差距。

LoRA 自定义

每次生成最多可应用三个 LoRA 适配器，每个适配器均可独立调整权重。这让你能够：

锁定视觉风格 —— 电影质感、动漫美学、品牌配色方案
保持角色一致性 —— 跨片段复用固定面孔、人物或吉祥物
训练自定义运动模式 —— 标志性动作、镜头技法、编舞方式
组合适配器 —— 在单次生成中叠加角色 LoRA、风格 LoRA 和运动 LoRA

灵活的输出选项

分辨率：480p 快速迭代、720p 均衡质量、1080p 最终交付
时长：生成 5 至 20 秒的片段
同步音频：音频与视频在单次模型推理中同步生成，可通过提示词线索引导音频效果，如”雨打窗玻璃”、“轻快的爵士乐”或”人群欢呼”

透明、可预期的定价

每次生成的费用根据分辨率和时长明确计算：

分辨率	5秒	10秒	15秒	20秒
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.25	$0.50	$0.75	$1.00

无隐藏费用，无意外算力收费。

真实应用场景

规模化品牌内容

营销团队可以基于品牌视觉标识 —— 标志处理方式、配色方案、动态图形风格 —— 训练一个 LoRA，然后仅凭文字描述生成符合品牌调性的视频内容。需要 20 种产品发布视频变体？写好提示词，应用品牌 LoRA，直接生成。

角色驱动的叙事创作

围绕特定角色构建系列或营销活动的创作者，可以从参考片段训练人物形象 LoRA。每一支新视频都能保持相同的角色外观，让剧集内容和社交媒体系列在视觉上保持一致，无需手动剪辑。

社交媒体内容创作

5 至 20 秒的时长范围完美契合 TikTok、Instagram Reels 和 YouTube Shorts 的短视频需求。直接从创意简报生成带同步音频的吸睛片段，先在 480p 下迭代，再以 1080p 渲染最终版本。

快速原型与概念可视化

广告公司和制作团队可以利用文本生成视频功能，快速为客户提案呈现创意概念。描述场景，应用电影风格 LoRA，几分钟内生成精良预览，而非耗费数天。

动态设计与视觉特效探索

针对特定镜头运动训练 LoRA —— 跟踪镜头、推拉变焦、平滑横移 —— 并应用到任意场景。这为动态设计师提供了一个天然契合其电影语言的起点。

在 WaveSpeedAI 上快速上手

生成你的第一支视频只需几行代码：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video-lora",
    {
        "prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
        "loras": [
            {"path": "your-style-lora-url", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

在 WaveSpeedAI 上运行意味着无冷启动 —— 你的请求直接命中热备 GPU，立即开始生成。结合实惠的按次计费定价和简洁的 REST API，你可以将视频生成无缝集成到生产工作流中，无需承担任何基础设施开销。

最佳实践技巧

低成本迭代：先在 480p 下打磨提示词和 LoRA 组合，再以 1080p 渲染最终版本
精确描述音频：在提示词中加入音频线索 —— “轻柔钢琴曲”、“海浪声”、“砾石上的脚步声” —— 以获得更具意图的音景效果
使用固定种子：比较提示词变体或 LoRA 权重时，锁定种子以隔离真正发生变化的因素
策略性叠加 LoRA：将风格适配器与运动适配器组合，产出两者单独都无法实现的效果，通过调节各自权重寻找最佳平衡

更宏观的视角

2026 年，AI 视频生成已跨越了一个重要门槛。曾经只能产出模糊数秒片段的新奇技术，如今已进化为具备电影级输出、连贯运动和同步音频的生产就绪工具。LTX-2.3 with LoRA 支持代表了这一演进的下一步：不仅是更好的基础质量，更是让模型成为你的模型的能力。

自定义 LoRA 将通用视频模型转变为能够理解你的品牌、你的角色和你的美学的专属创作工具。这就是生成通用内容与生成属于你的内容之间的本质区别。

立即开始创作

LTX-2.3 文本生成视频（支持 LoRA）现已在 WaveSpeedAI 上线。前往模型页面探索 API、运行你的首次生成，亲眼见证当顶尖视频生成能力与自定义 LoRA 适配器的精准控制相结合时，究竟能创造出什么。

你的文字。你的风格。你的视频。