← 博客

WaveSpeedAI LTX 2.3 Text-to-Video LoRA现已登陆WaveSpeedAI

支持LoRA的LTX-2.3是一款基于DiT架构的音视频基础模型,专为生成具有自定义风格、动作或形象的同步音视频内容而设计。

2 min read
Wavespeed Ai Ltx.2.3 Text To Video Lora
Wavespeed Ai Ltx.2.3 Text To Video Lora 支持LoRA的LTX-2.3是一款基于DiT架构的音视频基础模型,专为生成具有自定义风格、动作或形象的同步音视频内容而设...
Try it
WaveSpeedAI LTX 2.3 Text-to-Video LoRA现已登陆WaveSpeedAI

LTX-2.3 文本生成视频(支持 LoRA)现已登陆 WaveSpeedAI

想象与视频之间的距离从未如此之近。今天,我们很高兴宣布 LTX-2.3 文本生成视频(支持 LoRA) 正式上线 WaveSpeedAI —— 这款模型不仅能从文本生成视频,还能通过轻量级 LoRA 适配器,让你以自定义风格、角色和运动方式打造专属视觉。

无论你是在构建品牌形象、为固定角色制作动画,还是创作具有标志性电影质感的内容,LTX-2.3 with LoRA 都能给你通用视频生成模型无法企及的精准控制力。

什么是 LTX-2.3 文本生成视频 LoRA?

LTX-2.3 是 Lightricks LTX 模型家族的最新进化版本 —— 一款基于扩散 Transformer(DiT)架构的基础模型,能够在单次推理中从单个文本提示同步生成视频与音频。无需独立的音频制作流程,无需后处理补救措施。你描述一个场景,画面与声音同步呈现。

本次发布尤为强大的亮点在于加入了 LoRA(低秩自适应)支持。LoRA 适配器是轻量级可训练模块,叠加在基础模型之上,将其输出引导至特定风格、角色或运动模式。你最多可同时叠加三个 LoRA 适配器,将自定义美学与 LTX-2.3 的完整生成能力相融合。

结果:一款既通用又高度可定制的模型。

核心功能

升级的视觉与音频质量

LTX-2.3 搭载了全新设计的 VAE(变分自编码器),使用更高质量的数据进行训练。细腻纹理、发丝、文字叠层和边缘细节比以往版本更清晰、更真实。音频方面,训练数据已针对静音间隙、噪声和伪影进行过滤,全新声码器提供更干净、更可靠的音效,与视觉内容的对齐更加紧密。

增强的提示词遵循能力

全新的门控注意力文本连接器让模型更忠实地执行你的提示词。时间节奏、运动方式、表情和音频线索的描述能直接映射到生成输出中,缩小你所写与所见之间的差距。

LoRA 自定义

每次生成最多可应用三个 LoRA 适配器,每个适配器均可独立调整权重。这让你能够:

  • 锁定视觉风格 —— 电影质感、动漫美学、品牌配色方案
  • 保持角色一致性 —— 跨片段复用固定面孔、人物或吉祥物
  • 训练自定义运动模式 —— 标志性动作、镜头技法、编舞方式
  • 组合适配器 —— 在单次生成中叠加角色 LoRA、风格 LoRA 和运动 LoRA

灵活的输出选项

  • 分辨率:480p 快速迭代、720p 均衡质量、1080p 最终交付
  • 时长:生成 5 至 20 秒的片段
  • 同步音频:音频与视频在单次模型推理中同步生成,可通过提示词线索引导音频效果,如”雨打窗玻璃”、“轻快的爵士乐”或”人群欢呼”

透明、可预期的定价

每次生成的费用根据分辨率和时长明确计算:

分辨率5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.25$0.50$0.75$1.00

无隐藏费用,无意外算力收费。

真实应用场景

规模化品牌内容

营销团队可以基于品牌视觉标识 —— 标志处理方式、配色方案、动态图形风格 —— 训练一个 LoRA,然后仅凭文字描述生成符合品牌调性的视频内容。需要 20 种产品发布视频变体?写好提示词,应用品牌 LoRA,直接生成。

角色驱动的叙事创作

围绕特定角色构建系列或营销活动的创作者,可以从参考片段训练人物形象 LoRA。每一支新视频都能保持相同的角色外观,让剧集内容和社交媒体系列在视觉上保持一致,无需手动剪辑。

社交媒体内容创作

5 至 20 秒的时长范围完美契合 TikTok、Instagram Reels 和 YouTube Shorts 的短视频需求。直接从创意简报生成带同步音频的吸睛片段,先在 480p 下迭代,再以 1080p 渲染最终版本。

快速原型与概念可视化

广告公司和制作团队可以利用文本生成视频功能,快速为客户提案呈现创意概念。描述场景,应用电影风格 LoRA,几分钟内生成精良预览,而非耗费数天。

动态设计与视觉特效探索

针对特定镜头运动训练 LoRA —— 跟踪镜头、推拉变焦、平滑横移 —— 并应用到任意场景。这为动态设计师提供了一个天然契合其电影语言的起点。

在 WaveSpeedAI 上快速上手

生成你的第一支视频只需几行代码:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video-lora",
    {
        "prompt": "A lone astronaut walks across a crimson desert under twin suns, wind howling across the dunes, cinematic tracking shot",
        "loras": [
            {"path": "your-style-lora-url", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

在 WaveSpeedAI 上运行意味着无冷启动 —— 你的请求直接命中热备 GPU,立即开始生成。结合实惠的按次计费定价和简洁的 REST API,你可以将视频生成无缝集成到生产工作流中,无需承担任何基础设施开销。

最佳实践技巧

  • 低成本迭代:先在 480p 下打磨提示词和 LoRA 组合,再以 1080p 渲染最终版本
  • 精确描述音频:在提示词中加入音频线索 —— “轻柔钢琴曲”、“海浪声”、“砾石上的脚步声” —— 以获得更具意图的音景效果
  • 使用固定种子:比较提示词变体或 LoRA 权重时,锁定种子以隔离真正发生变化的因素
  • 策略性叠加 LoRA:将风格适配器与运动适配器组合,产出两者单独都无法实现的效果,通过调节各自权重寻找最佳平衡

更宏观的视角

2026 年,AI 视频生成已跨越了一个重要门槛。曾经只能产出模糊数秒片段的新奇技术,如今已进化为具备电影级输出、连贯运动和同步音频的生产就绪工具。LTX-2.3 with LoRA 支持代表了这一演进的下一步:不仅是更好的基础质量,更是让模型成为你的模型的能力。

自定义 LoRA 将通用视频模型转变为能够理解你的品牌、你的角色和你的美学的专属创作工具。这就是生成通用内容与生成属于你的内容之间的本质区别。

立即开始创作

LTX-2.3 文本生成视频(支持 LoRA)现已在 WaveSpeedAI 上线。前往模型页面探索 API、运行你的首次生成,亲眼见证当顶尖视频生成能力与自定义 LoRA 适配器的精准控制相结合时,究竟能创造出什么。

你的文字。你的风格。你的视频。