LTX-2.3 세로 영상 가이드: 소셜 및 모바일을 위한 9:16 워크플로우 (2026)
LTX-2.3은 크롭 없이 최대 1080×1920 해상도의 9:16 세로 영상을 네이티브로 생성합니다. 2026년에 소셜 미디어에 최적화된 세로 영상을 설정, 프롬프트 작성, 일괄 제작하는 방법을 소개합니다.
안녕하세요, 저는 Dora입니다!
세로 형식을 부차적인 기능이 아닌 핵심 포맷으로 다루는 비디오 모델을 기다려왔습니다. 대부분의 도구는 여전히 가로 방향으로 생성한 후 잘라내는 방식을 사용합니다. LTX-2.3은 이를 바꿉니다 — 가로 영상을 잘라낸 것이 아닌, 세로 방향 데이터로 훈련되어 최대 1080×1920 세로 영상을 생성합니다. TikTok과 Reels 워크플로를 운영하는 소셜 팀에게 이 차이는 생각보다 훨씬 중요합니다.

네이티브 세로 지원이 중요한 이유 (가로에서 자르는 방식과의 비교)
“세로 데이터로 훈련”이 출력 품질에 미치는 의미
모델이 16:9로 생성한 후 9:16으로 잘라내면, 원래부터 세로 구도를 고려한 것이 아닙니다. 피사체가 중앙에서 벗어나고, 하늘이 하단 3분의 1을 채우며, 모션 경로가 스마트폰 화면에서 어색하게 느껴집니다.
LTX-2.3은 오픈소스 모델로도, LTX API를 통해서도 사용할 수 있으며, 세로 지원이 사후 추가된 것이 아닌 훈련 파이프라인에 내장되어 있습니다. 모델은 훈련 과정에서 세로 우선 구도를 학습했기 때문에, 피사체 배치, 모션 아크, 카메라 움직임이 모두 세로 프레임 시청에 맞게 조정되어 있습니다.
9:16 세로 지원은 소셜 미디어와 모바일에 최적화된 세로 영상의 품질을 크게 향상시킵니다. 이것은 마케팅 언어가 아닙니다 — 모델 가중치가 종횡비별 공간 관계를 처리하는 방식의 구조적 차이입니다.
9:16 해상도 및 프레임 레이트 설정
ComfyUI 및 API에서의 1080×1920 설정
9:16의 실용적인 기본값은 720p(736×1280)입니다. RTX 5090 이상의 고성능 GPU를 보유하고 있다면, 풀 1080p 품질을 위해 1088×1920을 시도해보세요.
공식 LTXVideo 노드가 포함된 ComfyUI에서는 24GB 카드의 VRAM/품질 균형을 위해 해상도 노드를 768×1280으로 설정하세요. API 사용자의 경우, LTX API 문서에서는 해상도 파라미터와 함께 aspect_ratio: "9:16"을 허용합니다 — 수동 크기 계산이 필요합니다.

API를 통한 방법 (최소 설정):
model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24
소셜 플랫폼을 위한 24fps vs 48fps: 어느 것을 사용할까
LTX-2.3은 기존의 25/50 FPS 외에 24/48 FPS를 새로운 프레임 레이트 옵션으로 도입했습니다.
소셜용으로는: 대부분의 콘텐츠에 24fps를 사용하세요. TikTok과 Reels 모두 업로드 시 트랜스코딩하며, 24fps는 파일 크기를 늘리지 않으면서 최대한의 여유를 줍니다. 48fps로 한 번 인코딩하고 나중에 다운컨버트하세요 — 후반 작업에서 가장 큰 유연성을 제공합니다. 48fps는 모션의 부드러움이 핵심인 콘텐츠(댄스, 제품 공개, 슬로우 모션 에뮬레이션)에 활용하세요.
세로 구도를 위한 프롬프팅
세로 우선 프레이밍 언어
모델은 프레이밍 언어에 반응합니다. 세로 출력을 위해서는 피사체를 설명하기 전에 방향 단서를 먼저 제시하세요:
- ✅
vertical frame, close-up portrait, subject centered in upper half... - ✅
phone-screen composition, full-body vertical shot, negative space below... - ❌
wide establishing shot, panoramic landscape...(가로 구도로 유도됨)
피사체 배치 및 가로 편향 출력 방지
네이티브 세로 훈련에도 불구하고, 넓은 장면 언어로 프롬프팅하면 모델이 가로 구도로 편향될 수 있습니다. 피사체가 계속 상단-세로 방향 대신 중앙-넓은 방향으로 이동한다면: tall frame, vertical negative space, portrait orientation, face in upper third와 같은 명시적인 세로 앵커를 추가하세요.
토킹헤드나 아바타 콘텐츠의 경우, WaveSpeed의 LTX-2.3 구현에서는 세로 클립이 세로 축을 기준으로 모션을 설명할 때 가장 잘 작동한다고 언급합니다 — 카메라 틸트, 세로 패닝, 상승 샷은 모두 세로 프레임을 강화합니다.

세로 워크플로에서의 오디오: 포함할 것과 건너뛸 것
소셜에서 네이티브 오디오가 가치를 더하는 경우 (주변 소리, 사운드 온 콘텐츠)
효과음, 주변 소음, 대화는 생성 시점부터 동기화됩니다 — 전용 오디오-투-비디오 엔드포인트를 통해 오디오 클립을 제공하고 매칭되는 시각 콘텐츠를 생성할 수 있습니다.
네이티브 오디오를 사용하세요: 사운드 온 콘텐츠(주변 장면, 자연 클립, 군중 에너지)에 적합합니다. LTX-2.3의 오디오 개선으로 후처리 없이도 분위기 있는 사운드를 실제로 활용할 수 있습니다 — 아티팩트 감소, 더 깔끔한 대화.
오디오를 건너뛰고 후반 작업에서 추가해야 할 경우
보이스오버 중심 콘텐츠, 음악 싱크, 브랜드 사운드, 또는 정밀한 오디오 편집이 필요한 모든 경우에는 네이티브 오디오를 건너뛰세요. 영상만 생성한 후 NLE에서 오디오를 레이어링하세요. Pro 변형은 오디오-투-비디오, 리테이크, 확장 엔드포인트에 필요합니다 — 후반 작업에서 추가할 음악 트랙을 위해 영상만 생성하는 경우, Fast 변형이 비용과 시간을 절약합니다.
소셜 팀을 위한 배치 생산 워크플로
대용량 출력을 위한 스토리보드-투-클립 파이프라인
하루 20개 이상의 클립을 생성하는 팀을 위한 실용적인 파이프라인:
- 스크립트 → 스토리보드 — 샷별 세로 특화 프레이밍 노트 포함
- 배치 프롬프트 via LTX API — API는 상태 비저장이므로 병렬 요청이 독립적으로 실행됨
- QC 검토 — 피사체 드리프트 또는 가로 편향 출력에 플래그를 달아 재생성
- 오디오 레이어 — 음악 중심인 경우 후반 작업에서 추가
초안에는 Fast 변형, 최종본에는 Pro 변형 사용
구도를 빠르게 탐색하기 위해 Fast로 시작한 후, 최종 렌더링에는 Pro로 전환하세요. Fast는 속도와 저비용에 최적화되어 있어 빠른 프로토타이핑, 브레인스토밍, 스토리보딩, 신속한 반복에 적합합니다. Pro는 더 나은 모션 안정성과 시각적 디테일로 높은 충실도를 제공합니다.
일반적인 배치 비용 패턴: Fast 초안 10개로 구도와 타이밍을 확정한 후, 납품을 위해 Pro 렌더링 1개를 진행합니다. 이를 통해 전체 과정을 Pro로 진행하는 것에 비해 반복 비용이 약 60% 절감됩니다.
재생성 없이 더 긴 시퀀스를 위한 Extend-Video
v1/extend 엔드포인트는 추가 프레임을 생성하여 비디오 길이를 연장합니다. 810초보다 긴 세로 시퀀스의 경우, 재생성 대신 확장을 사용하세요 — 확장된 클립 전체에서 피사체 일관성을 유지합니다. 가장 매끄러운 이음새를 위해 클립 끝에서 23초의 컨텍스트 윈도우를 설정하세요.
한계점 및 일반적인 실패 유형
긴 세로 클립에서의 피사체 드리프트
12~15초를 넘으면 세로 클립에서 피사체 드리프트가 나타날 수 있습니다 — 모델이 점차 피사체 위치를 중앙 프레임 쪽으로 이동시킵니다. 완화 방법: 16초짜리 생성 1개 대신 Extend-Video를 더 짧은 세그먼트(8초 + 8초)로 사용하세요.
잘라낸-가로 방식이 네이티브 세로보다 나은 경우
네이티브 세로가 항상 올바른 선택은 아닙니다. 넓은 액션 콘텐츠(스포츠, 군중 장면, 차량 샷)의 경우, 가로 방향 생성 후 스마트 크롭이 여전히 더 나은 수평 구도와 자연스러운 모션을 제공합니다. 모델은 16:9 또는 21:9와 같은 와이드스크린 종횡비에서 가장 잘 작동합니다 — 세로 형식은 일부 콘텐츠 유형에서 왜곡된 결과를 낼 수 있습니다. 모든 콘텐츠 유형에 세로를 적용하기 전에 두 가지 접근 방식을 모두 테스트하세요.
ComfyUI-LTXVideo GitHub 저장소에는 두 경로에 대한 참조 워크플로가 포함되어 있습니다 — 노드를 처음부터 다시 구축하지 않고 나란히 비교하는 데 유용합니다.

FAQ
Q1: LTX-2.3 세로 출력의 최대 해상도는 무엇인가요?
LTX-2.3은 네이티브 세로(9:16) 비디오를 포함하여 최대 1080p의 텍스트-투-비디오, 이미지-투-비디오, 오디오-투-비디오 생성을 지원합니다. 실제로 세로의 경우 1080×1920이 최대값입니다. 대부분의 소셜 워크플로에서는 720p(736×1280)가 실용적인 기본값입니다 — 더 빠르고, 저렴하며, 플랫폼이 어차피 트랜스코딩합니다.
Q2: 세로 모드에 가로와 다른 LoRA가 필요한가요?
아닙니다. LTX-2.3은 LoRA 파인튜닝을 지원하여 특정 스타일, 캐릭터 또는 사용 사례에 맞게 모델을 커스터마이징할 수 있습니다. 가로 데이터로 훈련된 LoRA는 일반적으로 세로 생성에도 적용됩니다 — 프레이밍 동작은 LoRA 가중치가 아닌 프롬프트와 해상도 설정에 의해 제어됩니다. 단, 세로 특화 데이터로 훈련된 LoRA는 더 일관된 세로 구도를 생성합니다.
Q3: 소셜 콘텐츠에서 LTX-2.3 세로 품질이 Kling과 어떻게 비교되나요?
직접적인 벤치마크는 콘텐츠 유형에 따라 다릅니다. LTX-2.3의 장점은 오픈 가중치, API 접근성, 네이티브 세로 훈련입니다 — Kling은 여전히 클라우드 전용이며 훈련 데이터 투명성이 낮습니다. 주변 및 장면 중심의 세로 콘텐츠에서 LTX-2.3은 1080p에서 경쟁력이 있습니다. 고도로 스타일화된 인물 피사체의 경우, Kling의 클로즈드 모델이 일부 카테고리에서 여전히 우위에 있습니다. 결정하기 전에 특정 콘텐츠 유형으로 테스트하세요.
Q4: API를 통해 세로 클립을 배치 생성할 수 있나요?
네. LTX API는 어느 볼륨에서도 예측 가능한 성능으로 실제 워크로드를 위해 설계되었습니다 — 안정적인 출력, 일관된 충실도, 인프라급 신뢰성. 세로 및 가로 요청은 동일한 엔드포인트를 사용합니다. 요청 본문에 aspect_ratio: "9:16"을 추가하세요. 현재 파라미터 사양은 LTX API 변경 로그를 참조하세요.
Q5: LTX Desktop 앱이 세로 생성을 지원하나요?
LTX Desktop은 로컬 하드웨어에서 오픈 가중치로 실행되며 클라우드 의존성 없이 LTX-2.3 엔진을 기반으로 구축된 풀 비디오 에디터입니다. 세로 생성이 지원됩니다 — 출력 설정에서 해상도를 9:16 비율로 설정하세요. 1080p 세로 렌더링에 로컬 VRAM이 제약이 되는 경우, fal.ai LTX-2.3 플랫폼이 서버리스 대안을 제공합니다.

결론
LTX-2.3의 네이티브 세로 지원은 자르기 우회책이 아닌 진정한 훈련 수준의 변화입니다. 소셜 팀에게 이는 출력 단계에서 더 나은 피사체 배치, 더 자연스러운 모션, 더 적은 구도 수정을 의미합니다.
실용적인 규칙은 단순합니다: 대부분의 납품에는 720p, 초안에는 Fast, 최종본에는 Pro, 12초 이상에는 Extend를 사용하세요. 넓은 액션 콘텐츠의 경우, 가로-후-크롭 방식이 여전히 우승합니다 — 각 샷에 맞는 올바른 도구를 사용하세요.
지금 구축하는 파이프라인은 앞으로도 계속 활용될 것입니다. 워크플로를 올바르게 설정하면 품질 향상은 자연스럽게 따라올 것입니다.
이전 포스트:



