WaveSpeedAI LTX 2 19b Control, WaveSpeedAI에 출시
LTX-2 19B ControlNet 소개: 포즈, 깊이 및 에지 가이던스를 통한 정밀한 비디오-투-비디오 변환
AI 비디오 생성의 풍경이 새로운 이정표에 도달했습니다. LTX-2 19B ControlNet은 비디오 변환에 구조적 가이던스의 힘을 제공하여, 제작자들이 영상의 흥미로움을 만드는 모션과 다이나믹을 유지하면서 비디오 콘텐츠를 재구성할 수 있게 합니다. Lightricks의 획기적인 190억 매개변수 Diffusion Transformer 아키텍처를 기반으로 구축된 이 모델은 제어된 비디오 생성의 획기적인 도약을 나타냅니다.
LTX-2 19B ControlNet이란?
LTX-2 19B ControlNet은 포즈, 깊이 또는 canny 에지 감지를 사용하여 입력 동작 구조를 유지하면서 새로운 비디오 콘텐츠 생성을 안내하는 비디오-투-비디오 변환 모델입니다. 이 모델은 LTX-2 제품군과 동일한 강력한 기반 위에서 작동합니다. 비디오와 오디오 토큰을 동시에 처리하는 48개 레이어를 가진 비대칭 듀얼 스트림 diffusion transformer입니다.
이 모델을 차별화하는 것은 최대 20초 길이의 동기화된 오디오-비디오 콘텐츠를 생성할 수 있는 능력입니다. 아키텍처는 190억 매개변수를 전략적으로 분배합니다: 비디오 처리를 위해 약 140억 개, 오디오를 위해 50억 개이며, 단일 패스에서 일관된 멀티모달 출력을 가능하게 합니다.
ControlNet 통합을 통해 모델이 소스 비디오를 해석하는 방식을 정확히 선택할 수 있습니다. 포즈 감지를 통해 인간 모션을 유지하든, 깊이 매핑을 통해 장면 구조를 유지하든, canny 감지를 통해 정확한 에지를 따르든, 변환 프로세스에 대한 완전한 제어를 갖습니다.
주요 기능
모든 사용 사례를 위한 세 가지 가이던스 모드
-
포즈 모드: 입력 비디오에서 스켈레톤 및 포즈 정보를 추출하며, 인간 및 캐릭터 모션 전송에 이상적입니다. 이 모드는 프레임 전체에서 신체 위치를 안정적으로 추적하므로 댄스 시퀀스, 운동 동작 또는 인간 모션이 초점인 모든 콘텐츠에 완벽합니다.
-
깊이 모드: 소스 비디오에서 깊이 맵을 생성하여 장면 구조와 공간 관계를 유지합니다. 환경을 변환하거나, 시각적 스타일을 변경하거나, 영상의 기본 기하학을 유지하면서 창의적인 효과를 적용하려는 경우 사용합니다.
-
Canny 에지 모드: 소스 자료의 에지를 감지하여 도형과 윤곽을 유지하면서 생성을 안내합니다. 이 모드는 정확한 시각적 경계를 유지해야 하는 스타일 전송 응용 프로그램에서 뛰어납니다.
유연한 오디오 처리
모델은 창의적인 요구 사항에 맞는 세 가지 오디오 모드를 제공합니다:
- 유지: 입력 비디오의 원본 오디오 트랙 유지 - 립싱크 시나리오에 필수적입니다
- 생성: 변환된 시각과 일치하는 새로운 동기화 오디오 생성
- 없음: 별도로 오디오를 추가할 프로젝트를 위한 무음 비디오 출력
참조 이미지 통합
참조 이미지를 업로드하여 변환된 비디오의 모양을 정의합니다. 모델은 입력 비디오가 모든 모션을 제어하는 동안 참조의 시각적 특성을 적용합니다. 이를 통해 모션 영상을 사용하여 모든 캐릭터 이미지에 애니메이션을 적용할 수 있는 강력한 캐릭터 기반 변환이 가능합니다.
내장 프롬프트 강화
통합 프롬프트 강화기는 더 나은 결과를 위해 텍스트 설명을 자동으로 개선합니다. 캐릭터 감정, 카메라 움직임 및 조명 방향을 포함한 미묘한 언어 신호를 이해하는 모델의 Gemma-3 텍스트 인코더와 결합하면, 이 기능은 광범위한 프롬프트 엔지니어링 없이 전문적인 결과를 달성하는 데 도움이 됩니다.
실제 사용 사례
캐릭터 애니메이션 및 모션 전송
참조 영상의 모션을 적용하여 정적 캐릭터 이미지를 완전히 애니메이션화된 비디오로 변환합니다. 삽화된 캐릭터, 사진 또는 디지털 아바타로 작업하든, 포즈 가이던스 모드는 참조 이미지가 시각적 출력을 정의하는 동안 모션을 정확하게 캡처합니다.
소셜 미디어를 위한 댄스 전송
바이러스성 댄스 무브를 모든 피사체로 전송하여 매력적인 콘텐츠를 생성합니다. 포즈 모드는 프레임별로 신체 위치를 추적하므로 댄스 비디오를 스타일화된 애니메이션으로 변환할 수 있습니다 - TikTok, Instagram Reels 및 YouTube Shorts 콘텐츠에 완벽합니다.
비디오 스타일 전송
원본 모션을 유지하면서 기존 영상에 극적인 시각적 변환을 적용합니다. 깊이 모드를 사용하여 시각적 스타일을 변경할 때 장면 구조를 유지하거나, 정확한 모양 보존이 가장 중요한 경우 canny 에지 모드를 사용합니다.
비디오 제작에서의 캐릭터 일관성
시리즈 콘텐츠 또는 브랜드 비디오에서 작업하는 제작자의 경우, 참조 이미지 기능은 여러 클립에서 일관된 캐릭터 모양을 보장합니다. 모션은 다양한 소스 비디오에서 나올 수 있지만 캐릭터 모양은 동일하게 유지됩니다.
립싱크 비디오 생성
원본 오디오를 유지하면서 피사체의 시각적 모양을 변환합니다. 이 워크플로우는 더빙된 콘텐츠 생성, 라이브 영상의 애니메이션 버전 또는 개인정보 보호 비디오 수정에 특히 유용합니다.
WaveSpeedAI에서 시작하기
WaveSpeedAI에서 LTX-2 19B ControlNet을 사용하는 것은 간단합니다:
- 소스 비디오 업로드 — 출력을 위한 모션 구조를 제공합니다
- 참조 이미지 추가(선택 사항) — 변환된 비디오에서 원하는 모양을 정의합니다
- 프롬프트 작성 — 생성하려는 내용을 설명합니다
- 제어 모드 선택 — 필요에 따라 포즈, 깊이 또는 canny를 선택합니다
- 오디오 처리 선택 — 원본 유지, 새로 생성 또는 없음
- 해상도 설정 — 빠른 반복을 위해 480p, 균형잡힌 품질을 위해 720p, 최종 렌더를 위해 1080p
- 생성 — 제출하고 변환된 비디오를 다운로드합니다
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/control",
{
"video": "https://example.com/source-video.mp4",
"image": "https://example.com/reference.jpg",
"prompt": "A person dancing in a futuristic neon city",
"mode": "pose",
"audio_mode": "generate",
"resolution": "720p"
},
)
print(output["outputs"][0])
가격
모델은 해상도를 기반으로 한 간단한 초당 가격을 따릅니다:
| 해상도 | 5초 | 10초 | 15초 | 20초 |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.30 | $0.60 | $0.90 | $1.20 |
최고의 결과를 위한 전문가 팁
- 시작 포즈 일치: 참조 이미지의 피사체 포즈를 소스 비디오의 시작 포즈와 정렬하여 매끄러운 결과를 얻습니다
- 올바른 모드 선택: 인간/캐릭터 모션에 포즈 사용, 장면 구조에 깊이, 에지 기반 정밀도에 canny 사용
- 효율적으로 반복: 480p에서 시작하여 접근 방식을 구체화한 다음 720p 또는 1080p에서 최종 출력을 렌더링합니다
- 오디오 전략: 립싱크 프로젝트를 위해 오디오를 유지하고, 새로운 콘텐츠를 위해 생성하거나, 사후 처리에서 오디오를 추가할 때 없음을 사용합니다
WaveSpeedAI를 선택하는 이유?
WaveSpeedAI는 LTX-2 19B ControlNet을 실행하기 위한 이상적인 환경을 제공합니다:
- 콜드 스타트 없음: 작업이 인프라 지연 없이 즉시 처리되기 시작합니다
- 최적화된 추론: NVIDIA 최적화 배포는 가능한 가장 빠른 생성 시간을 보장합니다
- 투명한 가격: 명확한 초당 청구로 생성한 것만 비용을 지불합니다
- 프로덕션 준비 API: 애플리케이션 및 워크플로우에 직접 통합합니다
지금 바로 만들기 시작
LTX-2 19B ControlNet은 비디오 변환에 대한 정확한 제어가 필요한 비디오 제작자, 애니메이터 및 개발자를 위한 새로운 가능성을 열어줍니다. ControlNet 가이던스 모드, 유연한 오디오 처리 및 강력한 19B DiT 아키텍처의 조합은 접근 가능한 가격대에 전문적 품질의 결과를 제공합니다.
정확한 구조적 가이던스로 비디오를 변환할 준비가 되셨나요? WaveSpeedAI에서 LTX-2 19B ControlNet 시도하고 AI 비디오 생성에 대한 완전한 제어가 있을 때 가능한 것을 발견하세요.





