LTX-2.3: Lightricks 22B 비디오 모델의 새로운 점 (2026)
LTX-2.3은 새로운 VAE, 향상된 오디오, 세로형 9:16 비율, 공간/시간 업스케일러와 함께 220억 파라미터로 업그레이드되었습니다. 실제로 무엇이 바뀌었는지 알아보세요.
안녕하세요, 저는 Dora입니다. 지난주에 작은 계기로 **LTX‑2.3**을 시험해보게 되었습니다. 재킷 지퍼가 계속 천 속으로 녹아드는 4초짜리 클립 때문이었죠. 새 모델을 찾아 나선 것이 아니었습니다. 한 시간씩 씨름하지 않고도 지퍼가 지퍼처럼 보이길 원했을 뿐입니다. 그래서 저녁 시간을 내어 LTX‑2 이후로 써왔던 프롬프트와 오디오 큐 몇 가지를 동일하게 실행해봤습니다. 아래 메모는 기능 소개가 아닙니다. 이번 릴리스가 실제로 제 작업 방식을 바꾼 부분과 그렇지 않은 부분을 담은 기록입니다.

LTX-2 vs LTX-2.3 한눈에 보기
시작 전에 이런 요약본이 있었으면 좋았겠다 싶어 공유합니다. 직접 관찰한 내용과 릴리스 노트에 명시된 내용을 함께 담았습니다. 일부 수치가 대략적으로 표기된 것은 의도적입니다.
| 파라미터 | ~10–14B (이전 세대 규모) | ~22B (벤더 공식: 더 큰 컨텍스트) |
|---|---|---|
| VAE | 표준 VAE: 부드러운 미세 디테일 | 새로운 고충실도 VAE: 더 선명한 가는 엣지, 깔끔한 그래디언트 |
| 텍스트 인코더 | 안정적인 프롬프트 준수: 작은 객체에서 약간의 불명확함 | 개선된 소형 객체 그라운딩과 스타일 유지 기능 |
| 오디오 | 기본 오디오 컨디셔닝: 간헐적인 위상/워블 현상 | 재구성된 오디오 레이어: 더 깔끔한 컨디셔닝, 아티팩트 감소 |
| 기본/출력 | 720p 기준 안정적: 해킹으로 세로 방향 지원 | 네이티브 9:16 세로 지원: 동일 기준에 개선된 업스케일러 |
| 신규 | / | 오디오-투-비디오 개선, 공간+시간적 업스케일러, 24/48 FPS 옵션 |
이 표에서 두 가지 핵심 사항: VAE 업그레이드가 시각적 품질의 조용한 주역이며, 오디오 스택이 덜 불안정해졌다는 점입니다. 파라미터 증가는 일관성에 도움이 되지만, 스토리보드 로직이나 정확한 타이포그래피를 마법처럼 해결해주지는 않습니다.
새로운 VAE — 더 선명한 미세 디테일이 출력에 미치는 실질적 영향
LTX‑2에서는 프레임 사이로 미세한 텍스처가 “숨 쉬듯” 변하는 현상을 자주 목격했습니다. 12번째 프레임에서는 제대로 보이던 직물 결이 17번째 프레임에서 번지는 식이었죠. LTX‑2.3의 새로운 VAE에서는 엣지와 미세 텍스처가 훨씬 잘 유지됩니다. 차이가 눈에 확 띄는 수준은 아닙니다. 사소한 불편함이 사라지는 느낌입니다.
실제로:
- 헤어라인과 속눈썹이 모션이 빨라질 때 뭉치는 속도가 느려졌습니다.
- 크롬 엣지가 번지지 않고 타이트한 하이라이트를 유지합니다.
- 하늘과 그림자의 그래디언트에서 밴딩이 줄어들었습니다.
처음에는 시간이 절약되지 않았습니다. 여전히 기존의 디노이즈 및 시드 스윕을 진행했으니까요. 하지만 세 번 실행 후, 장신구와 지퍼에 대한 수동 클린업 마스크 작업을 멈췄습니다. 서서히 누적되는 방식의 “시간 절약”으로, 10초 클립당 약 6~8분 정도입니다.
주의사항: 대비가 강한 프롬프트를 사용할 경우 과도한 선명함이 나타날 수 있습니다. 그럴 때는 가이던스를 약간 낮춰(약 5~10%) 거친 프레임을 피했습니다.

차이를 느낄 수 있는 부분 (얼굴, 텍스처, 소형 객체, 크롬)
테스트 세트는 좁게 유지했습니다. 3월 18~24일 한 주간, 외워둔 세 가지 프롬프트를 같은 시드로 실행했습니다.
- 얼굴: 모공, 가는 솜털 머리카락, 눈꼬리가 모션에도 더 잘 살아남습니다. 기본값에서 “뷰티 필터” 느낌이 덜합니다. 프롬프트를 지나치게 제약했을 때 어색한 미소가 나오긴 했지만, 전반적으로 밀랍 같은 뺨이 줄었습니다.
- 텍스처: 데님, 린넨, 브러시드 스틸. 이 부분이 가장 많이 개선되었습니다. 모델이 직물 패턴을 펄싱 없이 존중합니다. LTX‑2에서는 약 8~10프레임마다 “텍스처 드리프트”가 발생하기도 했는데, 대부분 사라졌습니다.
- 소형 객체: 시계 바늘, 단추, 나사. 주변으로 녹아들기 전 형태를 더 오래 유지합니다. 완벽하지는 않지만, 나사가 얼룩으로 변하는 점프 컷이 줄었습니다.
- 크롬과 반사광: 하이라이트 번짐이 줄었습니다. 반사되는 림이나 수도꼭지에서 더 타이트한 롤오프가 보였고, 프레임이 과하게 처리된 것처럼 보이지 않습니다.
차이가 없었던 부분: 씬 내 인쇄된 텍스트 디테일 (라벨, 간판)은 여전히 불안정합니다. 선명하고 읽기 쉬운 텍스트가 중요하다면, 여전히 후작업으로 합성하는 것을 권장합니다.
재구성된 오디오 레이어: 더 깔끔한 생성, 아티팩트 감소
오디오 컨디셔닝 생성이 더 안정적으로 느껴집니다. LTX‑2에서는 리드미컬한 큐를 사용할 때 희미한 위상이나 워블이 들리곤 했습니다. 2.3에서는 그런 현상이 드뭅니다. 120 BPM 클릭과 드론 패드, 그리고 스포큰 워드 가이드 트랙으로 테스트했습니다.
제게 달라진 점:
- 비트에 맞춘 모션이 노출을 “따라가기” 위해 덕킹하지 않고도 더 일관되게 유지됩니다.
- 보이스오버의 치찰음 주변에 여유가 생겨, 프레임을 번지게 하던 채터링이 줄었습니다.
- 익스포트에 구워지는 청각적 아티팩트가 줄었습니다. 예전 실행에서는 렌더에서 컨디셔닝의 잔상이 들리기도 했는데, 테스트에서는 사라졌습니다.
한계: 여전히 프레임 정확도의 모션-히트 정렬은 아닙니다. 정확한 비트 마커가 필요하다면 후작업에서 트리밍이 필요합니다.

오디오-투-비디오가 잘 되는 것과 안 되는 것
2.3의 오디오-투-비디오는 에너지와 페이싱을 잡는 데 유용합니다. 립싱크나 정밀한 안무에는 적합하지 않습니다.
도움이 된 부분:
- 음악의 스웰에 따라 무드가 변하는 앰비언트 릴. 모델이 노출을 펌핑하는 대신 트랙과 함께 “숨을 쉽니다.”
- 부드러운 휘시 사운드가 있는 제품 클립, 트랜지션이 무작위가 아닌 안내받는 느낌입니다.
도움이 안 된 부분:
- 독백에 맞춘 립싱크. 입 모양이 여전히 흔들립니다. 토킹 헤드에 이것을 의존하지 않겠습니다.
- 정확한 비트 컷이나 댄스 스텝. 분위기에는 충분하지만 박자에는 맞지 않습니다.
그래서 저는 이것을 스캐폴딩 레이어로 사용합니다. 오디오에서 모션 느낌을 잡은 다음, 실제 NLE에서 편집을 확정합니다.
세로형 9:16과 새로운 프레임레이트 옵션 (24 / 48 FPS)
네이티브 9:16 세로 지원이 드디어 번거로운 크롭 체인을 없애줬습니다. 수직 구성이 더 의도적으로 보입니다. 트리밍이 아닌 프레이밍이죠. LTX‑2에서 촬영한 카페 시퀀스(가로에서 크롭)를 다시 실행했더니, 2.3의 수직 패스에서 손과 컵 주변의 엣지 처리가 더 깔끔해졌습니다.
프레임레이트에 대해:
- 24fps: 모션이 영화적으로 느껴지지만 빠른 팬에서 스트로브가 생길 수 있습니다. 내러티브 분위기에는 여전히 기본값으로 사용합니다.
- 48fps: 제가 우려했던 드라마 느낌 없이 더 부드러운 모션입니다. 특히 새 업스케일러와 함께 사용할 때 제품 스핀과 매크로 디테일에 유용합니다.
약간의 마찰: 48fps는 검토 부담을 두 배로 늘립니다. 짧은 세그먼트를 익스포트해서 확인하기 시작했는데, 그렇지 않으면 프레임 사이에 숨어있는 작은 아티팩트를 놓치게 됩니다.

공간적·시간적 업스케일러: 함께 작동하는 방식
이전에는 별도의 도구에서 공간적으로 업스케일하고 시간적 흔들림을 그 대가로 받아들였습니다. LTX‑2.3의 페어 업스케일러는 그 트레이드오프를 줄여줍니다.
제가 실행한 방법:
- 편안한 기본 해상도(720p 정도)로 생성하고 모션을 승인합니다.
- 공간적 업스케일러로 디테일을 높입니다.
- 시간적 업스케일러로 프레임 전반을 안정화합니다.
제가 발견한 점:
- 시간적 업스케일러를 마지막에 적용하면 “개별 프레임은 아름다운데 시퀀스는 지터링”하는 오래된 문제를 피할 수 있습니다.
- 두 업스케일러를 조합하면 파이프라인에서 1~2개의 패스가 줄어듭니다. 대부분의 클립에서 외부 디노이저로 왕복하는 것을 멈췄습니다.
- 실패 사례: 기본 모션이 이미 혼란스럽다면, 시간적 업스케일링이 미세한 모션을 번지게 할 수 있습니다. 업스케일링 전에 모션 강도를 약간 낮춰서 해결했습니다.
마법은 아니지만, 이번 릴리스에서 저에게 가장 “시스템 친화적인” 부분입니다.
22B 규모: 파라미터 증가가 바꾸는 것 (그리고 바꾸지 않는 것)
더 큰 모델은 더 많은 컨텍스트를 기억하고 더 잘 일반화할 수 있습니다. 여기서는 6~10초 전반에 걸친 안정적인 객체 지속성과 다중 절 프롬프트에 대한 약간 개선된 준수로 나타났습니다.
제가 느낀 변화:
- 시퀀스 중간에 객체가 바뀌는 현상이 줄었습니다 (빨간 머그컵이 더 오래 빨간 색을 유지합니다).
- 스타일 지시가 더 안정적으로 유지됩니다.
해결되지 않은 것:
- 복잡한 공간 논리 (예: “카메라가 의자 뒤를 지나가다가 거울이 보이며…”). 여전히 신중한 프롬프팅과 때로는 스토리보드 패스가 필요합니다.
- 씬 내 완벽한 텍스트 렌더링. 여전히 어렵습니다.
비용:
- VRAM 요구량이 늘고 첫 토큰 지연 시간이 길어집니다. 로컬 박스(24GB VRAM)에서 기본 해상도의 짧은 실행은 가능했지만, 야심찬 작업은 타일링이나 오프로드가 필요했습니다.
- 워밍업이 약간 길어집니다. 엄청나지는 않지만, 빠르게 반복할 때 눈에 띕니다.
지금 주목해야 할 사람
- 빌더 (툴, 노드, 커스텀 워크플로우): 새로운 VAE와 업스케일러는 통합할 가치가 있습니다. “왜 흔들리는 거지?”라는 일반적인 지원 티켓 두 가지를 없애줍니다. 프리셋을 제공한다면, 과도하게 선명한 결과를 피하기 위해 보수적인 가이던스 기본값을 고려하세요.
- 제품 팀: 오디오 일관성과 9:16 지원으로 소셜 출력의 마찰이 줄어듭니다. 사용자들이 릴스 중심이라면, 48fps + 시간적 업스케일링은 조용한 업그레이드입니다. 립싱크는 과장하지 마세요, 아직 거기까지는 안 됩니다.
- 크리에이터: 텍스처 드리프트와 싸웠거나 가로-세로 크롭 워크플로우가 싫었다면, 2.3은 삶의 질을 높여주는 릴리스입니다. 완벽한 텍스트나 탄탄한 스토리 로직을 기대했다면, 기다려도 됩니다.
제 간단한 계산: 클린업 마스크가 줄고, 외부 도구 왕복이 줄었습니다. 화려하지는 않지만, 이번 라운드는 이 정도면 충분합니다.

FAQ
LTX-2.3을 로컬에서 실행하기 위한 VRAM 요구사항은?
제가 실행한 환경: 24GB에서 작은 배치를 포함한 짧은 기본 해상도 생성(720p 정도)을 처리할 수 있었습니다. 1080p나 더 긴 클립의 경우 타일링과 간헐적인 CPU 오프로드가 필요했습니다. 12~16GB라면 더 느린 실행과 더 타이트한 제약을 예상하세요. 정확한 요구사항은 샘플러, 컨텍스트 길이, 업스케일러 활성화 여부에 따라 달라집니다.
메모리 튜닝이 처음이라면 PyTorch의 CUDA 메모리 관리 노트가 유용한 입문 자료입니다.
LTX-2.3은 기존 LTX-2 ComfyUI 워크플로우와 역호환됩니까?
대체로 정신적으로는 호환되지만, 새 VAE에 맞게 노드를 교체하고 가이던스를 조정해야 했습니다. 기존 LTX‑2 ComfyUI 그래프가 로드되었지만 deprecated 필드에 대한 불평을 했습니다. 10분간의 노드 정리로 해결되었습니다. Comfy에서 빌드한다면 모델 로더와 VAE 노드를 주시하세요. 참고가 필요하다면 ComfyUI 메인 리포는 여기입니다: ComfyUI on GitHub.
LTX-2.3은 상업적으로 사용 가능합니까?
저는 변호사가 아닙니다. 릴리스 노트의 라이선스를 확인했고, 일반적인 제한 사항(저작권 표시/허용 가능한 사용)이 있는 상업적 사용의 표준처럼 보였습니다. 브랜드 캠페인, 방송 등 리스크가 있는 프로젝트라면 라이선스를 한 줄씩 읽고 로컬 사본을 저장해두세요.
출시 시점에 API가 제공됩니까?
테스트 중에 로컬 실행과 호스팅 엔드포인트를 모두 사용했습니다. 호스팅 API는 일부 쿼터와 함께 노트에 사용 가능하다고 표시되었습니다. API 기능(웹훅, 재시도, 장기 실행 작업)에 의존한다면 파이프라인을 구축하기 전에 공식 문서에서 확인하세요.
LTX-2.3은 LoRA 파인튜닝을 지원합니까?
LTX‑2와 유사하게 LoRA 훅이 노출된 것을 확인했으며, 업데이트된 텍스트 인코더에 대한 호환성 노트가 있었습니다. 실제로 기존 LoRA가 로드되었지만 재튜닝이 필요했습니다 (오버피팅 아티팩트를 피하기 위해 강도를 약간 낮췄습니다). 파인튜닝에 의존한다면 재보정 시간을 예산에 포함하세요.
지퍼 때문에 시작했습니다. 클린업 패스가 줄고 크롭 해킹이 하나 없어진 것으로 마무리합니다. 드라마틱하지 않지만…더 가벼워졌습니다. 이번 라운드는 그것으로 충분합니다.





