← 博客

LTX-2.3竖屏视频指南:2026年社交与移动端9:16工作流

LTX-2.3原生支持9:16竖屏视频,分辨率最高达1080×1920,无需裁剪。本文介绍如何在2026年配置、提示词撰写及批量生产适合社交媒体的竖版短片。

2 min read
LTX-2.3竖屏视频指南:2026年社交与移动端9:16工作流

嗨,我是 Dora!

我一直在等待一个将竖版格式视为一等公民的视频模型,而不是事后补充的功能。大多数工具仍然生成横屏视频,然后让你裁剪。LTX-2.3 改变了这一点——它能生成最高 1080×1920 的竖版视频,基于竖向构图数据训练,而非从横屏裁剪而来。对于运营 TikTok 和 Reels 工作流的社交团队来说,这个区别比听起来更重要。

为什么原生竖版支持很重要(相比从横屏裁剪)

“基于竖版数据训练”对输出质量意味着什么

当模型生成 16:9 画面再裁剪为 9:16 时,它并非为竖向构图而创作。主体会偏离中心,天空填满底部三分之一,而运动轨迹在手机屏幕上也会显得别扭。

LTX-2.3 既作为开源模型提供,也可通过 LTX API 使用,竖版支持已内置于训练流程中——而非后期加装。该模型在训练期间已见过竖向优先的构图,这意味着主体位置、运动弧线和摄像机运动都针对竖向画面进行了校准

9:16 竖版支持为竖向人像视频带来了大幅提升的质量,非常适合社交媒体和移动端。这不是营销语言——而是模型权重处理宽高比特定空间关系方式上的结构性差异。

9:16 的分辨率和帧率设置

ComfyUI 及 API 中的 1080×1920 配置

9:16 的实用默认值是 720p(736×1280)。如果你拥有 RTX 5090 或更强的 GPU,可以尝试 1088×1920 以获得完整的 1080p 质量。

使用官方 LTXVideo 节点的 ComfyUI 中,将分辨率节点设置为 768×1280,可在 24GB 显存显卡上获得良好的显存/画质平衡。对于 API 用户,LTX API 文档支持在分辨率参数旁边传入 aspect_ratio: "9:16"——需要手动计算尺寸。

通过 API(最简配置):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

社交平台选择 24 还是 48 FPS

LTX-2.3 在现有 25/50 FPS 基础上新增了 24/48 FPS 选项。

对于社交内容:大多数内容使用 24fps。TikTok 和 Reels 在上传时都会转码,24fps 在不增加文件体积的情况下给你留有最大余地。如有需要,先以 48fps 编码,之后再降帧率——这样后期处理灵活性最高。将 48fps 留给运动流畅度是卖点的内容(舞蹈、产品发布、慢动作模拟)。

竖版构图的提示词写法

竖向优先的构图语言

该模型对构图语言有响应。对于竖版输出,在描述主体之前先给出方向提示

  • vertical frame, close-up portrait, subject centered in upper half...(竖向画面,特写人像,主体居中于上半部分……)
  • phone-screen composition, full-body vertical shot, negative space below...(手机屏幕构图,全身竖拍,下方留白……)
  • wide establishing shot, panoramic landscape...(宽幅全景镜头,全景横向……)(会引导模型偏向横向构图)

主体定位与避免横向偏移输出

即使有原生竖版训练,当提示词包含宽场景语言时,模型仍可能偏向横向构图。如果主体持续偏向居中宽构图而非上部竖构图,请添加明确的竖向锚点,如 tall framevertical negative spaceportrait orientation, face in upper third

对于说话人或虚拟形象内容,WaveSpeed 的 LTX-2.3 实现指出,当你以竖轴为参照描述运动时,竖版片段效果最佳——摄像机倾斜、垂直平移和上升镜头都能强化竖向画面感。

竖版工作流中的音频:何时使用,何时跳过

原生音频在社交内容中的价值(环境音、开声内容)

音效、环境噪音和对话均从生成阶段同步——专用的音频转视频端点可让你提供音频片段并生成匹配的画面。

以下情况使用原生音频: 内容为开声模式(环境场景、自然片段、人群氛围)。LTX-2.3 的音频改进使氛围音无需后期处理即可直接使用——减少了伪影,对话更清晰。

何时跳过原生音频并在后期添加

对于以旁白为主的内容、音乐同步、品牌音效,或任何需要精确音频编辑的内容,请跳过原生音频,只生成视频,然后在非线性编辑系统中叠加音频。音频转视频、重拍和延长端点需要 Pro 版本——如果你只是为后期添加的音乐轨道生成视频,Fast 版本可节省成本和时间

社交团队的批量生产工作流

高产量输出的分镜-片段流水线

对于每天生成 20 个以上片段的团队,实用流水线如下:

  1. 脚本 → 分镜,每个镜头附上竖版专用构图说明
  2. 批量提示词通过 LTX API 发送——API 是无状态的,并行请求独立运行
  3. 质检——标记主体漂移或横向偏移的输出,重新生成
  4. 如果以音乐为主导,后期叠加音频

草稿用 Fast 版本,终稿用 Pro 版本

先用 Fast 快速探索构图,然后切换到 Pro 进行最终渲染。Fast 针对速度和低成本进行了优化——最适合快速原型设计、头脑风暴、分镜制作和快速迭代。Pro 提供更高保真度,运动稳定性和视觉细节更佳。

典型批量成本模式: 运行 10 个 Fast 草稿确定构图和时序,然后一次 Pro 渲染用于交付。与全程使用 Pro 相比,迭代成本大约降低 60%。

使用视频延长功能生成更长序列,无需重新生成

v1/extend 端点通过生成额外帧来延长视频时长。对于超过 8-10 秒的竖版序列,优先延长而非重新生成——这能在延长片段中保持主体一致性。从片段末尾设置 2-3 秒的上下文窗口,可获得最平滑的衔接。

局限性与常见失败情况

长竖版片段中的主体漂移

超过 12-15 秒后,竖版片段可能出现主体漂移——模型逐渐将主体位置向画面中心偏移。解决方法:使用较短片段(8秒 + 8秒)的视频延长功能,而非一次生成 16 秒。

裁剪优化的横屏内容仍优于原生竖版的情况

原生竖版并非总是正确选择。对于宽幅动作内容(运动、人群场景、车辆镜头),先生成横屏再进行智能裁剪,仍能产生更好的横向构图和自然运动。该模型在 16:9 或 21:9 等宽屏比例下效果最佳——竖版格式对某些内容类型可能产生变形结果。在为每种内容类型确定使用竖版之前,请先测试两种方案。

ComfyUI-LTXVideo GitHub 仓库包含两种路径的参考工作流——无需从头重建节点即可进行并排比较。

常见问题

Q1:LTX-2.3 竖版输出的最大分辨率是多少?

LTX-2.3 支持文本转视频、图像转视频和音频转视频生成,最高支持 1080p,包括原生竖版(9:16)视频。实际上,1080×1920 是竖版的上限。对于大多数社交工作流,720p(736×1280)是实用默认值——速度更快,成本更低,而且平台无论如何都会转码。

Q2:竖版模式是否需要与横屏不同的 LoRA?

不需要。LTX-2.3 支持 LoRA 微调,允许你针对特定风格、角色或用例定制模型。基于横屏数据训练的 LoRA 通常可以迁移到竖版生成——构图行为由提示词和分辨率设置控制,而非 LoRA 权重本身。话虽如此,基于竖版专用数据训练的 LoRA 将产生更一致的竖向构图。

Q3:LTX-2.3 的竖版质量与 Kling 在社交内容上的表现相比如何?

直接基准测试因内容类型而异。LTX-2.3 的优势在于开放权重、API 访问和原生竖版训练——Kling 仍仅提供云端服务,训练数据透明度较低。对于环境和场景驱动的竖版内容,LTX-2.3 在 1080p 下具有竞争力。对于高度风格化的人物主体,Kling 的闭源模型在某些类别中仍有优势。请根据你的具体内容类型测试后再做决定。

Q4:可以通过 API 批量生成竖版片段吗?

可以。LTX API 专为实际工作负载设计,在任何规模下都能提供可预测的性能——输出稳定、保真度一致、具备基础设施级可靠性。竖版和横屏请求使用相同的端点。在请求体中添加 aspect_ratio: "9:16" 即可。请参阅 LTX API 更新日志了解当前参数规格。

Q5:LTX Desktop 应用支持竖版生成吗?

LTX Desktop 是一款基于 LTX-2.3 引擎构建的完整视频编辑器,在你的本地硬件上运行,使用开放权重,无需云端依赖。支持竖版生成——在输出设置中将分辨率设置为 9:16 比例即可。请注意,如果本地显存无法满足 1080p 竖版渲染,fal.ai LTX-2.3 平台提供了无服务器替代方案。

结语

LTX-2.3 的原生竖版支持是训练层面的真实改变,而非裁剪变通方案。对于社交团队而言,这意味着输出阶段主体定位更准确、运动更自然、需要修正的构图问题更少

实用规则很简单:大多数交付使用 720p,草稿用 Fast,终稿用 Pro,超过 12 秒的内容使用延长功能。对于宽幅动作内容,横屏后裁剪仍然胜出——为镜头选择合适的工具。

你现在搭建的流水线将持续发挥作用。工作流做对了,质量提升自然会随之而来。

往期文章: