← 博客

LTX-2.3:Lightricks 220亿参数视频模型的新功能(2026)

LTX-2.3 升级至 220 亿参数,配备全新 VAE、更清晰的音频、竖屏 9:16 支持及空间/时序超分辨率。以下是实际变更内容。

2 min read
LTX-2.3:Lightricks 220亿参数视频模型的新功能(2026)

大家好,我是 Dora。上周有件小事促使我尝试了 LTX‑2.3:一段 4 秒的片段,里面夹克的拉链不断融入布料中。我并不是在追逐新模型,只是想让拉链看起来像拉链,而不用折腾一个小时。于是我抽出一个晚上,用自己从 LTX‑2 时代就在用的那些提示词和音频线索跑了一遍测试。下面的笔记不是功能导览,而是这次版本更新真正改变了我日常工作的地方,以及没有改变的地方。

LTX-2 与 LTX-2.3 一览

这是我希望在开始之前就拥有的对比快照。我分享的是我的实际观察以及发布说明中的内容。如果某些数据看起来是近似值,那是有意为之。

参数~10–14B(上一代规模)~22B(厂商说明:更大上下文)
VAE标准 VAE:微观细节较柔新高保真 VAE:边缘更锐利,梯度更干净
文本编码器提示词遵从度稳定,小物体偶有模糊更新后小物体定位更准,风格延续性更好
音频基础音频条件化,偶有相位抖动/颤音重建音频层,条件化更干净,伪影更少
基础/输出720p 基础稳定,竖版需靠变通方案原生 9:16 竖版,相同基础但配备更好的放大器
新特性/音频转视频改进、空间+时间放大器、24/48 FPS 选项

从这张表中可以得出两个快速结论:VAE 升级是视觉效果的无声英雄,音频处理也不再那么脆弱。参数量的增加有助于提升一致性,但无法神奇地修复故事板逻辑或精确排版。

新 VAE——更锐利的精细细节对输出意味着什么

在 LTX‑2 上,我经常看到精细纹理在帧间”呼吸”——布料纹理在第 12 帧看起来正常,到第 17 帧就糊掉了。使用 LTX‑2.3 的新 VAE 后,边缘和微观纹理的帧间一致性更好。 差异不是霓虹灯那样显眼,而是小烦恼的消失。

实际体验:

  • 运动加速时,发丝和睫毛不会那么快粘连在一起。
  • 镀铬边缘保持更紧致的高光,不会膨胀扩散。
  • 天空和阴影中的渐变出现的条带更少。

这起初并没有为我节省时间,我仍然进行了常规的降噪和种子扫描。但跑了三遍之后,我就不再对珠宝和拉链做手动清理蒙版了。这是一种缓慢积累的”时间节省”:大约每 10 秒片段节省 6–8 分钟。

注意:如果你使用对比度强烈的提示词,也可能产生过度锐化。遇到这种情况,我会将引导值下调一点(约 5–10%)以避免画面变脆。

你会看到差异的地方(面部、纹理、小物体、镀铬)

我将测试集保持得很精简:三个我烂熟于心的提示词,在 3 月 18–24 日那周用相同的种子运行。

  • 面部:毛孔、细小的胎毛和眼角在运动中保持得更好。默认情况下感觉少了一些”美颜滤镜”的味道。过度约束提示词时我仍会偶尔遇到诡异的微笑,但整体上蜡质感的脸颊减少了。
  • 纹理:牛仔布、亚麻布、拉丝钢。这些改进最为明显。模型尊重织物纹理而不产生脉冲。在 LTX‑2 上,我有时每约 8–10 帧就会出现”纹理漂移”。这个问题基本消失了。
  • 小物体:表针、纽扣、螺丝。它们保持形状的时间更长,不会那么快融入周围环境。还不完美,但螺丝变成污点的跳帧现象少了很多。
  • 镀铬和高光:高光的溢出减少了。我注意到反光轮毂和水龙头上的高光过渡更紧致,画面不再看起来过度处理。

没有明显改进的地方:场景内的详细印刷文字(标签、标牌)仍然不稳定。如果清晰可读的文字至关重要,我仍会在后期进行合成处理。

重建音频层:生成更干净,伪影更少

音频条件化生成感觉更稳定了。在 LTX‑2 上,当我依赖节奏性提示时,偶尔能听到轻微的相位抖动或颤音。在 2.3 中,这种情况更少见了。 我测试了 120 BPM 的节拍器配合持续的垫音,以及一段旁白引导音轨。

对我而言改变了什么:

  • 节拍对齐的运动更加一致,不会出现为了”跟随”底鼓而压低曝光的现象。
  • 旁白中的齿擦音周围有了呼吸空间,过去会模糊帧的噪声减少了。
  • 导出文件中烘焙进去的可听伪影更少。在旧版本的运行中,我有时能在渲染中听到条件化信号的残影。在我的测试中,这个问题消失了。

限制:它仍然不是帧精度的运动与音效对齐。如果你需要精确的节拍标记,仍然需要在后期进行修剪。

音频转视频适合做什么(以及不适合做什么)

2.3 中的音频转视频适合塑造能量和节奏感,不擅长唇形同步或精确编舞。

它帮助了我的地方:

  • 情绪随音乐起伏的氛围短片。模型会随着音轨”呼吸”,而不是抽动曝光。
  • 带有轻柔呼啸声的产品片段,过渡感觉是有引导的,而非随机的。

它没有帮助的地方:

  • 对白的唇形同步。嘴型仍然会漂移。我不会依赖这个功能制作讲话的人物。
  • 精确的节拍切换或舞蹈动作。对于氛围感来说足够了,但无法做到按节拍计数。

所以我把它作为一个支架层:从音频获取运动感,然后在真正的 NLE 中锁定编辑。

竖版 9:16 和新帧率选项(24 / 48 FPS)

原生 9:16 竖版终于让我摆脱了笨拙的裁剪链。竖版构图看起来更有意图感——是构图,而不仅仅是裁切。我重新运行了一段在 LTX‑2 中拍摄的咖啡馆场景(从横版裁切而来),2.3 的竖版处理在手和杯子周围给了我更干净的边缘处理。

关于帧率:

  • 24 fps:运动感觉有电影质感,但快速摇镜时可能会出现频闪。仍然是我叙事内容的默认选择。
  • 48 fps:运动更流畅,没有我担心的那种肥皂剧感。适合产品旋转和微距细节展示,尤其是搭配新放大器时效果更佳。

一个小摩擦点:48 fps 会让你的审查工作量翻倍。 我开始导出短片段进行检查,否则很容易错过隐藏在帧间的小瑕疵。

空间与时间放大器:它们如何协同工作

我过去习惯用单独的工具进行空间放大,并接受时间抖动作为代价。LTX‑2.3 的配对放大器减少了这种权衡。

我的运行方式:

  1. 以舒适的基础分辨率(约 720p)生成,确认运动效果。
  2. 用空间放大器提升细节。
  3. 用时间放大器进行跨帧稳定。

我注意到的:

  • 最后做时间处理可以避免旧有的”单帧精美、序列抖动”问题。
  • 这对组合从我的流程中减少了 1–2 个步骤。对于大多数片段,我不再需要往返到外部降噪工具了。
  • 失败案例:如果基础运动本身就很混乱,时间放大可能会模糊微动。我通过在放大前降低运动强度来解决这个问题。

这不是魔法,但对我来说是这次发布中最”系统友好”的部分。

22B 规模:参数量跃升改变了什么(以及没改变什么)

更大的模型可以记住更多上下文并更好地泛化。这在这里体现为:在 6–10 秒内物体持久性更稳定,以及对多从句提示词的遵从度略有提升。

我感受到的变化:

  • 序列中途的物体替换减少了(红色马克杯保持红色的时间更长)。
  • 风格指令的贯穿执行更可靠。

没有修复的问题:

  • 复杂的空间逻辑(例如,“镜头从椅子后面穿过,然后呈现一面镜子,镜子里显示……”)。你仍然需要仔细的提示词设计,有时还需要一个故事板步骤。
  • 场景内的完美文字渲染。仍然令人头疼。

代价:

  • 更高的 VRAM 需求和更长的首 token 延迟。我的本地机器(24 GB VRAM)可以处理基础分辨率的短片段;任何有挑战性的内容都需要分块处理或卸载。
  • 预热时间略长。影响不大,但如果你迭代很快,会有所察觉。

谁现在应该关注

  • 开发者(工具、节点、自定义工作流):新 VAE 和放大器值得集成。它们消除了两个常见的”为什么它会抖动?“支持工单。如果你发布预设,考虑使用保守的引导默认值以避免过度锐化的外观。
  • 产品团队:音频一致性和 9:16 支持减少了社交媒体输出的摩擦。如果你的用户倾向于制作短视频,48 fps + 时间放大是一个平稳的升级。不要过度宣传唇形同步功能——它还没到位。
  • 创作者:如果你曾为纹理漂移苦恼,或者厌倦了裁剪到竖版的工作流,2.3 是一个提升生活质量的版本。如果你希望实现完美的文字渲染或严密的故事逻辑,可以放心地等待。

我的简短总结:更少的清理蒙版,更少的外部工具跳转。这不够炫酷,但这一轮我满意了。

常见问题

在本地运行 LTX-2.3 需要多少 VRAM?

我的运行情况:24 GB 可以处理短时长基础分辨率生成(约 720p),并有余量进行小批量处理。对于 1080p 或更长的片段,我需要分块处理和偶尔的 CPU 卸载。如果你使用 12–16 GB,预期速度会更慢,限制会更多。你的具体需求会因采样器、上下文长度以及是否启用两个放大器而有所不同。

如果你是内存调优的新手,PyTorch 关于 CUDA 内存管理的说明是一个很好的入门资料。

LTX-2.3 与现有的 LTX-2 ComfyUI 工作流向后兼容吗?

大体上兼容,但我需要为新 VAE 替换节点并调整引导值。我的旧 LTX‑2 ComfyUI 图表加载后,对几个已弃用字段提出了报错。十分钟的节点清理就修复了。如果你在 ComfyUI 中构建工作流,请留意模型加载器和 VAE 节点。如果需要参考,ComfyUI 的主仓库在这里:ComfyUI on GitHub

LTX-2.3 可以商业使用吗?

我不是律师。我查看了发布说明中的许可证,对于商业使用来说看起来是标准条款,带有常见的限制(署名/可接受使用)。如果你的项目存在风险——品牌推广活动、广播——请逐行阅读许可证并保存本地副本。

API 在发布时就可用吗?

我在测试期间使用了本地运行和托管端点。托管 API 在说明中被标记为可用,但有一些配额限制。如果你依赖 API 功能(Webhook、重试、长时间运行的任务),请在提交流程之前在官方文档中确认。

LTX-2.3 支持 LoRA 微调吗?

我看到 LoRA 接口的暴露方式与 LTX‑2 非常相似,并附有关于更新后文本编码器兼容性的说明。实际操作中,我的旧 LoRA 可以加载,但需要重新调整(强度稍微降低,以避免过拟合伪影)。如果你依赖微调模型,请预留时间进行重新校准。

我开始这一切是因为一个拉链。结束时,我有了更少的清理步骤和少了一个裁剪技巧。不够戏剧化,只是……轻松了一点。这一轮对我来说已经足够了。

往期文章: