LTX-2.3：Lightricks 220亿参数视频模型的新功能（2026）

大家好，我是 Dora。上周有件小事促使我尝试了 LTX‑2.3：一段 4 秒的片段，里面夹克的拉链不断融入布料中。我并不是在追逐新模型，只是想让拉链看起来像拉链，而不用折腾一个小时。于是我抽出一个晚上，用自己从 LTX‑2 时代就在用的那些提示词和音频线索跑了一遍测试。下面的笔记不是功能导览，而是这次版本更新真正改变了我日常工作的地方，以及没有改变的地方。

LTX-2 与 LTX-2.3 一览

这是我希望在开始之前就拥有的对比快照。我分享的是我的实际观察以及发布说明中的内容。如果某些数据看起来是近似值，那是有意为之。

参数	~10–14B（上一代规模）	~22B（厂商说明：更大上下文）
VAE	标准 VAE：微观细节较柔	新高保真 VAE：边缘更锐利，梯度更干净
文本编码器	提示词遵从度稳定，小物体偶有模糊	更新后小物体定位更准，风格延续性更好
音频	基础音频条件化，偶有相位抖动/颤音	重建音频层，条件化更干净，伪影更少
基础/输出	720p 基础稳定，竖版需靠变通方案	原生 9:16 竖版，相同基础但配备更好的放大器
新特性	/	音频转视频改进、空间+时间放大器、24/48 FPS 选项

从这张表中可以得出两个快速结论：VAE 升级是视觉效果的无声英雄，音频处理也不再那么脆弱。参数量的增加有助于提升一致性，但无法神奇地修复故事板逻辑或精确排版。

新 VAE——更锐利的精细细节对输出意味着什么

在 LTX‑2 上，我经常看到精细纹理在帧间”呼吸”——布料纹理在第 12 帧看起来正常，到第 17 帧就糊掉了。使用 LTX‑2.3 的新 VAE 后，边缘和微观纹理的帧间一致性更好。 差异不是霓虹灯那样显眼，而是小烦恼的消失。

实际体验：

运动加速时，发丝和睫毛不会那么快粘连在一起。
镀铬边缘保持更紧致的高光，不会膨胀扩散。
天空和阴影中的渐变出现的条带更少。

这起初并没有为我节省时间，我仍然进行了常规的降噪和种子扫描。但跑了三遍之后，我就不再对珠宝和拉链做手动清理蒙版了。这是一种缓慢积累的”时间节省”：大约每 10 秒片段节省 6–8 分钟。

注意：如果你使用对比度强烈的提示词，也可能产生过度锐化。遇到这种情况，我会将引导值下调一点（约 5–10%）以避免画面变脆。

你会看到差异的地方（面部、纹理、小物体、镀铬）

我将测试集保持得很精简：三个我烂熟于心的提示词，在 3 月 18–24 日那周用相同的种子运行。

面部：毛孔、细小的胎毛和眼角在运动中保持得更好。默认情况下感觉少了一些”美颜滤镜”的味道。过度约束提示词时我仍会偶尔遇到诡异的微笑，但整体上蜡质感的脸颊减少了。
纹理：牛仔布、亚麻布、拉丝钢。这些改进最为明显。模型尊重织物纹理而不产生脉冲。在 LTX‑2 上，我有时每约 8–10 帧就会出现”纹理漂移”。这个问题基本消失了。
小物体：表针、纽扣、螺丝。它们保持形状的时间更长，不会那么快融入周围环境。还不完美，但螺丝变成污点的跳帧现象少了很多。
镀铬和高光：高光的溢出减少了。我注意到反光轮毂和水龙头上的高光过渡更紧致，画面不再看起来过度处理。

没有明显改进的地方：场景内的详细印刷文字（标签、标牌）仍然不稳定。如果清晰可读的文字至关重要，我仍会在后期进行合成处理。

重建音频层：生成更干净，伪影更少

音频条件化生成感觉更稳定了。在 LTX‑2 上，当我依赖节奏性提示时，偶尔能听到轻微的相位抖动或颤音。在 2.3 中，这种情况更少见了。我测试了 120 BPM 的节拍器配合持续的垫音，以及一段旁白引导音轨。

对我而言改变了什么：

节拍对齐的运动更加一致，不会出现为了”跟随”底鼓而压低曝光的现象。
旁白中的齿擦音周围有了呼吸空间，过去会模糊帧的噪声减少了。
导出文件中烘焙进去的可听伪影更少。在旧版本的运行中，我有时能在渲染中听到条件化信号的残影。在我的测试中，这个问题消失了。

限制：它仍然不是帧精度的运动与音效对齐。如果你需要精确的节拍标记，仍然需要在后期进行修剪。

音频转视频适合做什么（以及不适合做什么）

2.3 中的音频转视频适合塑造能量和节奏感，不擅长唇形同步或精确编舞。

它帮助了我的地方：

情绪随音乐起伏的氛围短片。模型会随着音轨”呼吸”，而不是抽动曝光。
带有轻柔呼啸声的产品片段，过渡感觉是有引导的，而非随机的。

它没有帮助的地方：

对白的唇形同步。嘴型仍然会漂移。我不会依赖这个功能制作讲话的人物。
精确的节拍切换或舞蹈动作。对于氛围感来说足够了，但无法做到按节拍计数。

所以我把它作为一个支架层：从音频获取运动感，然后在真正的 NLE 中锁定编辑。

竖版 9:16 和新帧率选项（24 / 48 FPS）

原生 9:16 竖版终于让我摆脱了笨拙的裁剪链。竖版构图看起来更有意图感——是构图，而不仅仅是裁切。我重新运行了一段在 LTX‑2 中拍摄的咖啡馆场景（从横版裁切而来），2.3 的竖版处理在手和杯子周围给了我更干净的边缘处理。

关于帧率：

24 fps：运动感觉有电影质感，但快速摇镜时可能会出现频闪。仍然是我叙事内容的默认选择。
48 fps：运动更流畅，没有我担心的那种肥皂剧感。适合产品旋转和微距细节展示，尤其是搭配新放大器时效果更佳。

一个小摩擦点：48 fps 会让你的审查工作量翻倍。 我开始导出短片段进行检查，否则很容易错过隐藏在帧间的小瑕疵。

空间与时间放大器：它们如何协同工作

我过去习惯用单独的工具进行空间放大，并接受时间抖动作为代价。LTX‑2.3 的配对放大器减少了这种权衡。

我的运行方式：

以舒适的基础分辨率（约 720p）生成，确认运动效果。
用空间放大器提升细节。
用时间放大器进行跨帧稳定。

我注意到的：

最后做时间处理可以避免旧有的”单帧精美、序列抖动”问题。
这对组合从我的流程中减少了 1–2 个步骤。对于大多数片段，我不再需要往返到外部降噪工具了。
失败案例：如果基础运动本身就很混乱，时间放大可能会模糊微动。我通过在放大前降低运动强度来解决这个问题。

这不是魔法，但对我来说是这次发布中最”系统友好”的部分。

22B 规模：参数量跃升改变了什么（以及没改变什么）

更大的模型可以记住更多上下文并更好地泛化。这在这里体现为：在 6–10 秒内物体持久性更稳定，以及对多从句提示词的遵从度略有提升。

我感受到的变化：

序列中途的物体替换减少了（红色马克杯保持红色的时间更长）。
风格指令的贯穿执行更可靠。

没有修复的问题：

复杂的空间逻辑（例如，“镜头从椅子后面穿过，然后呈现一面镜子，镜子里显示……”）。你仍然需要仔细的提示词设计，有时还需要一个故事板步骤。
场景内的完美文字渲染。仍然令人头疼。

代价：

更高的 VRAM 需求和更长的首 token 延迟。我的本地机器（24 GB VRAM）可以处理基础分辨率的短片段；任何有挑战性的内容都需要分块处理或卸载。
预热时间略长。影响不大，但如果你迭代很快，会有所察觉。

谁现在应该关注

开发者（工具、节点、自定义工作流）：新 VAE 和放大器值得集成。它们消除了两个常见的”为什么它会抖动？“支持工单。如果你发布预设，考虑使用保守的引导默认值以避免过度锐化的外观。
产品团队：音频一致性和 9:16 支持减少了社交媒体输出的摩擦。如果你的用户倾向于制作短视频，48 fps + 时间放大是一个平稳的升级。不要过度宣传唇形同步功能——它还没到位。
创作者：如果你曾为纹理漂移苦恼，或者厌倦了裁剪到竖版的工作流，2.3 是一个提升生活质量的版本。如果你希望实现完美的文字渲染或严密的故事逻辑，可以放心地等待。

我的简短总结：更少的清理蒙版，更少的外部工具跳转。这不够炫酷，但这一轮我满意了。

常见问题

在本地运行 LTX-2.3 需要多少 VRAM？

我的运行情况：24 GB 可以处理短时长基础分辨率生成（约 720p），并有余量进行小批量处理。对于 1080p 或更长的片段，我需要分块处理和偶尔的 CPU 卸载。如果你使用 12–16 GB，预期速度会更慢，限制会更多。你的具体需求会因采样器、上下文长度以及是否启用两个放大器而有所不同。

如果你是内存调优的新手，PyTorch 关于 CUDA 内存管理的说明是一个很好的入门资料。

LTX-2.3 与现有的 LTX-2 ComfyUI 工作流向后兼容吗？

大体上兼容，但我需要为新 VAE 替换节点并调整引导值。我的旧 LTX‑2 ComfyUI 图表加载后，对几个已弃用字段提出了报错。十分钟的节点清理就修复了。如果你在 ComfyUI 中构建工作流，请留意模型加载器和 VAE 节点。如果需要参考，ComfyUI 的主仓库在这里：ComfyUI on GitHub。

LTX-2.3 可以商业使用吗？

我不是律师。我查看了发布说明中的许可证，对于商业使用来说看起来是标准条款，带有常见的限制（署名/可接受使用）。如果你的项目存在风险——品牌推广活动、广播——请逐行阅读许可证并保存本地副本。

API 在发布时就可用吗？

我在测试期间使用了本地运行和托管端点。托管 API 在说明中被标记为可用，但有一些配额限制。如果你依赖 API 功能（Webhook、重试、长时间运行的任务），请在提交流程之前在官方文档中确认。

LTX-2.3 支持 LoRA 微调吗？

我看到 LoRA 接口的暴露方式与 LTX‑2 非常相似，并附有关于更新后文本编码器兼容性的说明。实际操作中，我的旧 LoRA 可以加载，但需要重新调整（强度稍微降低，以避免过拟合伪影）。如果你依赖微调模型，请预留时间进行重新校准。

我开始这一切是因为一个拉链。结束时，我有了更少的清理步骤和少了一个裁剪技巧。不够戏剧化，只是……轻松了一点。这一轮对我来说已经足够了。

LTX-2 与 LTX-2.3 一览

新 VAE——更锐利的精细细节对输出意味着什么

你会看到差异的地方（面部、纹理、小物体、镀铬）

重建音频层：生成更干净，伪影更少

音频转视频适合做什么（以及不适合做什么）

竖版 9:16 和新帧率选项（24 / 48 FPS）

空间与时间放大器：它们如何协同工作

22B 规模：参数量跃升改变了什么（以及没改变什么）

谁现在应该关注

常见问题

在本地运行 LTX-2.3 需要多少 VRAM？

LTX-2.3 与现有的 LTX-2 ComfyUI 工作流向后兼容吗？

LTX-2.3 可以商业使用吗？

API 在发布时就可用吗？

LTX-2.3 支持 LoRA 微调吗？

往期文章：

相关文章

Claude Code源码泄露：BUDDY、KAIROS及所有隐藏功能全解析

什么是Claude Mythos？泄露信息、Capybara等级及Anthropic官方确认内容

什么是 Claw Code？Claude Code 重写详解

Qwen3.5-Omni 是什么：功能、版本与 API 访问指南

PixVerse V6 Extend 现已登陆WaveSpeedAI

PixVerse V6图生视频现已登陆WaveSpeedAI