← 部落格

LTX-2.3 直式影片指南:2026年社群媒體與行動裝置的 9:16 工作流程

LTX-2.3 原生支援最高 1080×1920 的 9:16 直式影片,無需裁切。本文介紹如何在 2026 年設定、提示並批次製作適用於社群媒體的垂直短片。

2 min read
LTX-2.3 直式影片指南:2026年社群媒體與行動裝置的 9:16 工作流程

嗨,我是 Dora!

我一直在等待一個將直式格式視為一流規格的影片模型,而不是事後才想到的功能。大多數工具仍然生成橫式影片,讓你自行裁切。LTX-2.3 改變了這一點——它能直接生成最高 1080×1920 的直式影片,訓練時使用直式構圖資料,而非從橫式裁切而來。對於經營 TikTok 和 Reels 工作流程的社群團隊而言,這個差異比聽起來更重要。

為什麼原生直式支援很重要(對比從橫式裁切)

「以直式資料訓練」對輸出品質的意義

當模型生成 16:9 影片後再裁切為 9:16 時,它在構圖時根本沒有考慮直式畫面。主體偏離中心、天空佔據下方三分之一,而手機螢幕上的運動路徑感覺也很奇怪。

LTX-2.3 以開源模型和 LTX API 兩種形式提供,直式支援內建於訓練流程中——而非事後追加。模型在訓練期間見過以直式為優先的構圖,這意味著主體位置、運動弧線和相機移動都針對高畫框觀看進行了校準

9:16 直式支援為直式人像影片帶來大幅提升的品質,完美適用於社群媒體和行動裝置。這不是行銷用語——而是模型權重處理長寬比特定空間關係方式上的結構性差異。

9:16 的解析度與幀率設定

在 ComfyUI 和 API 中設定 1080×1920

9:16 的實用預設值是 720p(736×1280)。如果你擁有 RTX 5090 或更強的 GPU,可嘗試 1088×1920 以獲得完整的 1080p 品質。

搭配官方 LTXVideo 節點的 ComfyUI 中,將解析度節點設為 768×1280,在 24GB 顯示卡上可獲得良好的 VRAM 與品質平衡。對於 API 使用者,LTX API 文件接受 aspect_ratio: "9:16" 搭配你的解析度參數——需要手動計算尺寸。

透過 API(最小配置):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

社群平台:24 還是 48 FPS?

LTX-2.3 在現有的 25/50 FPS 之外,新增了 24/48 FPS 作為幀率選項。

針對社群平台:大多數內容使用 24fps。TikTok 和 Reels 在上傳時都會重新編碼,24fps 在不膨脹檔案大小的情況下提供最大的彈性空間。如有需要,以 48fps 編碼後再降轉——這在後製時提供最大的靈活性。將 48fps 保留給運動流暢度是賣點的內容(舞蹈、產品揭露、慢動作模擬)。

直式構圖的提示詞技巧

以直式為優先的框架語言

模型會回應框架語言。針對直式輸出,在描述主體之前先加入方向提示

  • vertical frame, close-up portrait, subject centered in upper half...
  • phone-screen composition, full-body vertical shot, negative space below...
  • wide establishing shot, panoramic landscape...(會拉向橫式構圖)

主體位置與避免橫式偏差輸出

即使有原生直式訓練,當提示詞包含寬景語言時,模型仍可能偏向橫式構圖。如果你的主體持續偏向中央寬景而非垂直上方:加入明確的垂直錨點,例如 tall framevertical negative spaceportrait orientation, face in upper third

對於說話人頭或虛擬形象內容,WaveSpeed 的 LTX-2.3 實作指出,當你以垂直軸描述運動時,直式片段效果最佳——相機傾斜、垂直平移和上升鏡頭都能強化高畫框感。

直式工作流程中的音訊:該加入什麼、該跳過什麼

原生音訊何時為社群內容增添價值(環境音、有聲內容)

音效、環境聲和對話從生成時就已同步——專用的音訊轉影片端點讓你提供音訊片段並生成匹配的視覺內容。

使用原生音訊的時機: 你的內容需要開聲(環境場景、自然片段、人群氛圍)。LTX-2.3 的音訊改進使大氣音效真正可用,無需後製處理——減少雜訊、對話更清晰。

何時跳過音訊並在後製中添加

對於以旁白為主的內容、音樂同步、品牌音效,或任何需要精確音訊編輯的內容,請跳過原生音訊。只生成影片,然後在你的 NLE 中疊加音訊。音訊轉影片、重拍和延伸端點需要 Pro 版本——如果你只是為後製中要添加的音樂軌道生成影片,Fast 版本可節省成本和時間

社群團隊的批次生產工作流程

高產量輸出的分鏡到片段流程

對於每天生成 20 個以上片段的團隊,實用流程如下:

  1. 腳本 → 分鏡,每個鏡頭附上直式特定的框架備註
  2. 透過 LTX API 批次提示詞——API 是無狀態的,因此並行請求獨立執行
  3. 品質控制關卡——標記主體偏移或橫式偏差輸出以重新生成
  4. 若以音樂為主,在後製中疊加音訊層

草稿使用 Fast 版本,最終輸出使用 Pro 版本

先使用 Fast 快速探索構圖,然後切換到 Pro 進行最終渲染。Fast 針對速度和低成本進行優化——最適合快速原型製作、腦力激盪、分鏡製作和快速迭代。Pro 提供更高保真度,具備更好的運動穩定性和視覺細節。

典型批次成本模式: 執行 10 個 Fast 草稿以確定構圖和時間點,然後一個 Pro 渲染用於交付。與全程使用 Pro 相比,這可將迭代成本削減約 60%。

使用延伸影片功能生成更長序列而無需重新生成

v1/extend 端點透過生成額外幀來延伸影片時長。對於超過 8–10 秒的直式序列,選擇延伸而非重新生成——它能在延伸片段中保持主體一致性。將延伸片段末尾的 2–3 秒設為上下文視窗,以獲得最平滑的接縫。

限制與常見失敗情況

長直式片段中的主體漂移

超過 12–15 秒後,直式片段可能出現主體漂移——模型逐漸將主體位置移向畫框中央。解決方案:使用延伸影片分段(8 秒 + 8 秒)而非一次生成 16 秒。

裁切並精修的橫式影片仍勝過原生直式的情況

原生直式並非永遠是正確選擇。對於寬景動作內容(運動、人群場景、車輛鏡頭),橫式生成後進行智慧裁切仍能產生更好的橫式構圖和自然運動。模型在 16:9 或 21:9 等寬螢幕長寬比下效果最佳——對於某些內容類型,直式格式可能產生失真結果。在為所有內容類型都採用直式之前,先測試兩種方法。

ComfyUI-LTXVideo GitHub 儲存庫包含兩種路徑的參考工作流程——無需從頭重建節點即可進行並排比較。

常見問題

Q1:LTX-2.3 直式輸出的最高解析度是多少?

LTX-2.3 支援文字轉影片、圖像轉影片和音訊轉影片生成,最高可達 1080p,包括原生直式(9:16)影片。實際上,1080×1920 是直式的上限。對於大多數社群工作流程,720p(736×1280)是實用預設值——速度更快、成本更低,而且平台無論如何都會重新編碼。

Q2:直式模式是否需要與橫式不同的 LoRA?

不需要。LTX-2.3 支援 LoRA 微調,讓你可以針對特定風格、角色或使用案例自訂模型。以橫式資料訓練的 LoRA 通常可以遷移到直式生成——框架行為由你的提示詞和解析度設定控制,而非 LoRA 權重本身。話雖如此,以直式特定資料訓練的 LoRA 將產生更一致的垂直構圖。

Q3:LTX-2.3 直式品質與 Kling 相比,在社群內容方面如何?

直接基準測試因內容類型而異。LTX-2.3 的優勢在於開放權重、API 存取和原生直式訓練——Kling 仍是純雲端服務,訓練資料透明度較低。對於環境和場景驅動的直式內容,LTX-2.3 在 1080p 方面具有競爭力。對於高度風格化的人物主體,Kling 的封閉模型在某些類別中仍有優勢。在決定之前,請針對你的特定內容類型進行測試。

Q4:我可以透過 API 批次生成直式片段嗎?

可以。LTX API 專為真實世界工作負載而設計,在任何規模下都能提供可預測的效能——穩定的輸出、一致的保真度和基礎設施級別的可靠性。直式和橫式請求使用相同的端點。在請求內容中加入 aspect_ratio: "9:16"。請參閱 LTX API 更新日誌以獲取當前參數規格。

Q5:LTX Desktop 應用程式是否支援直式生成?

LTX Desktop 是一款基於 LTX-2.3 引擎構建的完整影片編輯器,在你的硬體上本地運行,使用開放權重且無需雲端依賴。支援直式生成——在輸出設定中將解析度設為 9:16 比例。請注意,如果本地 VRAM 對 1080p 直式渲染是個限制,fal.ai LTX-2.3 平台提供了無伺服器替代方案。

結論

LTX-2.3 的原生直式支援是真正的訓練層級變革,而非裁切變通方案。對於社群團隊而言,這意味著在輸出階段能實現更好的主體位置、更自然的運動和更少的構圖修正

實用規則很簡單:大多數交付使用 720p,草稿使用 Fast 而最終輸出使用 Pro,超過 12 秒的內容使用延伸功能。對於寬景動作內容,橫式後裁切仍然勝出——為鏡頭選擇正確的工具。

你現在建立的流程將持續延用。把工作流程做對,品質提升自然會隨之而來。

往期文章: