LTX-2.3竖屏视频指南：2026年社交与移动端9:16工作流

嗨，我是 Dora！

我一直在等待一个将竖版格式视为一等公民的视频模型，而不是事后补充的功能。大多数工具仍然生成横屏视频，然后让你裁剪。LTX-2.3 改变了这一点——它能生成最高 1080×1920 的竖版视频，基于竖向构图数据训练，而非从横屏裁剪而来。对于运营 TikTok 和 Reels 工作流的社交团队来说，这个区别比听起来更重要。

为什么原生竖版支持很重要（相比从横屏裁剪）

“基于竖版数据训练”对输出质量意味着什么

当模型生成 16:9 画面再裁剪为 9:16 时，它并非为竖向构图而创作。主体会偏离中心，天空填满底部三分之一，而运动轨迹在手机屏幕上也会显得别扭。

LTX-2.3 既作为开源模型提供，也可通过 LTX API 使用，竖版支持已内置于训练流程中——而非后期加装。该模型在训练期间已见过竖向优先的构图，这意味着主体位置、运动弧线和摄像机运动都针对竖向画面进行了校准。

9:16 竖版支持为竖向人像视频带来了大幅提升的质量，非常适合社交媒体和移动端。这不是营销语言——而是模型权重处理宽高比特定空间关系方式上的结构性差异。

9:16 的分辨率和帧率设置

ComfyUI 及 API 中的 1080×1920 配置

9:16 的实用默认值是 720p（736×1280）。如果你拥有 RTX 5090 或更强的 GPU，可以尝试 1088×1920 以获得完整的 1080p 质量。

在使用官方 LTXVideo 节点的 ComfyUI 中，将分辨率节点设置为 768×1280，可在 24GB 显存显卡上获得良好的显存/画质平衡。对于 API 用户，LTX API 文档支持在分辨率参数旁边传入 aspect_ratio: "9:16"——需要手动计算尺寸。

通过 API（最简配置）：

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

社交平台选择 24 还是 48 FPS

LTX-2.3 在现有 25/50 FPS 基础上新增了 24/48 FPS 选项。

对于社交内容：大多数内容使用 24fps。TikTok 和 Reels 在上传时都会转码，24fps 在不增加文件体积的情况下给你留有最大余地。如有需要，先以 48fps 编码，之后再降帧率——这样后期处理灵活性最高。将 48fps 留给运动流畅度是卖点的内容（舞蹈、产品发布、慢动作模拟）。

竖版构图的提示词写法

竖向优先的构图语言

该模型对构图语言有响应。对于竖版输出，在描述主体之前先给出方向提示：

✅ vertical frame, close-up portrait, subject centered in upper half...（竖向画面，特写人像，主体居中于上半部分……）
✅ phone-screen composition, full-body vertical shot, negative space below...（手机屏幕构图，全身竖拍，下方留白……）
❌ wide establishing shot, panoramic landscape...（宽幅全景镜头，全景横向……）（会引导模型偏向横向构图）

主体定位与避免横向偏移输出

即使有原生竖版训练，当提示词包含宽场景语言时，模型仍可能偏向横向构图。如果主体持续偏向居中宽构图而非上部竖构图，请添加明确的竖向锚点，如 tall frame、vertical negative space 或 portrait orientation, face in upper third。

对于说话人或虚拟形象内容，WaveSpeed 的 LTX-2.3 实现指出，当你以竖轴为参照描述运动时，竖版片段效果最佳——摄像机倾斜、垂直平移和上升镜头都能强化竖向画面感。

竖版工作流中的音频：何时使用，何时跳过

原生音频在社交内容中的价值（环境音、开声内容）

音效、环境噪音和对话均从生成阶段同步——专用的音频转视频端点可让你提供音频片段并生成匹配的画面。

以下情况使用原生音频： 内容为开声模式（环境场景、自然片段、人群氛围）。LTX-2.3 的音频改进使氛围音无需后期处理即可直接使用——减少了伪影，对话更清晰。

何时跳过原生音频并在后期添加

对于以旁白为主的内容、音乐同步、品牌音效，或任何需要精确音频编辑的内容，请跳过原生音频，只生成视频，然后在非线性编辑系统中叠加音频。音频转视频、重拍和延长端点需要 Pro 版本——如果你只是为后期添加的音乐轨道生成视频，Fast 版本可节省成本和时间。

社交团队的批量生产工作流

高产量输出的分镜-片段流水线

对于每天生成 20 个以上片段的团队，实用流水线如下：

脚本 → 分镜，每个镜头附上竖版专用构图说明
批量提示词通过 LTX API 发送——API 是无状态的，并行请求独立运行
质检——标记主体漂移或横向偏移的输出，重新生成
如果以音乐为主导，后期叠加音频

草稿用 Fast 版本，终稿用 Pro 版本

先用 Fast 快速探索构图，然后切换到 Pro 进行最终渲染。Fast 针对速度和低成本进行了优化——最适合快速原型设计、头脑风暴、分镜制作和快速迭代。Pro 提供更高保真度，运动稳定性和视觉细节更佳。

典型批量成本模式： 运行 10 个 Fast 草稿确定构图和时序，然后一次 Pro 渲染用于交付。与全程使用 Pro 相比，迭代成本大约降低 60%。

使用视频延长功能生成更长序列，无需重新生成

v1/extend 端点通过生成额外帧来延长视频时长。对于超过 8-10 秒的竖版序列，优先延长而非重新生成——这能在延长片段中保持主体一致性。从片段末尾设置 2-3 秒的上下文窗口，可获得最平滑的衔接。

局限性与常见失败情况

长竖版片段中的主体漂移

超过 12-15 秒后，竖版片段可能出现主体漂移——模型逐渐将主体位置向画面中心偏移。解决方法：使用较短片段（8秒 + 8秒）的视频延长功能，而非一次生成 16 秒。

裁剪优化的横屏内容仍优于原生竖版的情况

原生竖版并非总是正确选择。对于宽幅动作内容（运动、人群场景、车辆镜头），先生成横屏再进行智能裁剪，仍能产生更好的横向构图和自然运动。该模型在 16:9 或 21:9 等宽屏比例下效果最佳——竖版格式对某些内容类型可能产生变形结果。在为每种内容类型确定使用竖版之前，请先测试两种方案。

ComfyUI-LTXVideo GitHub 仓库包含两种路径的参考工作流——无需从头重建节点即可进行并排比较。

常见问题

Q1：LTX-2.3 竖版输出的最大分辨率是多少？

LTX-2.3 支持文本转视频、图像转视频和音频转视频生成，最高支持 1080p，包括原生竖版（9:16）视频。实际上，1080×1920 是竖版的上限。对于大多数社交工作流，720p（736×1280）是实用默认值——速度更快，成本更低，而且平台无论如何都会转码。

Q2：竖版模式是否需要与横屏不同的 LoRA？

不需要。LTX-2.3 支持 LoRA 微调，允许你针对特定风格、角色或用例定制模型。基于横屏数据训练的 LoRA 通常可以迁移到竖版生成——构图行为由提示词和分辨率设置控制，而非 LoRA 权重本身。话虽如此，基于竖版专用数据训练的 LoRA 将产生更一致的竖向构图。

Q3：LTX-2.3 的竖版质量与 Kling 在社交内容上的表现相比如何？

直接基准测试因内容类型而异。LTX-2.3 的优势在于开放权重、API 访问和原生竖版训练——Kling 仍仅提供云端服务，训练数据透明度较低。对于环境和场景驱动的竖版内容，LTX-2.3 在 1080p 下具有竞争力。对于高度风格化的人物主体，Kling 的闭源模型在某些类别中仍有优势。请根据你的具体内容类型测试后再做决定。

Q4：可以通过 API 批量生成竖版片段吗？

可以。LTX API 专为实际工作负载设计，在任何规模下都能提供可预测的性能——输出稳定、保真度一致、具备基础设施级可靠性。竖版和横屏请求使用相同的端点。在请求体中添加 aspect_ratio: "9:16" 即可。请参阅 LTX API 更新日志了解当前参数规格。

Q5：LTX Desktop 应用支持竖版生成吗？

LTX Desktop 是一款基于 LTX-2.3 引擎构建的完整视频编辑器，在你的本地硬件上运行，使用开放权重，无需云端依赖。支持竖版生成——在输出设置中将分辨率设置为 9:16 比例即可。请注意，如果本地显存无法满足 1080p 竖版渲染，fal.ai LTX-2.3 平台提供了无服务器替代方案。

结语

LTX-2.3 的原生竖版支持是训练层面的真实改变，而非裁剪变通方案。对于社交团队而言，这意味着输出阶段主体定位更准确、运动更自然、需要修正的构图问题更少。

实用规则很简单：大多数交付使用 720p，草稿用 Fast，终稿用 Pro，超过 12 秒的内容使用延长功能。对于宽幅动作内容，横屏后裁剪仍然胜出——为镜头选择合适的工具。

你现在搭建的流水线将持续发挥作用。工作流做对了，质量提升自然会随之而来。

往期文章：