WaveSpeedAI LTX 2 19b, WaveSpeedAI에 출시

WaveSpeedAI에서 LTX-2 19B 출시: 동기화된 오디오가 포함된 텍스트-투-비디오 생성

AI 비디오 생성 도구를 프로덕션 수준으로 끌어올리기 위한 경쟁이 새로운 이정표에 도달했습니다. Lightricks의 획기적인 텍스트-투-비디오 기초 모델인 LTX-2 19B가 이제 WaveSpeedAI에서 이용 가능하며, 크리에이터, 마케터, 개발자에게 동기화된 오디오-비디오 생성, 다양한 성능 모드, 최대 20초 클립을 제공합니다.

별도의 오디오 후처리가 필요한 무음 클립을 생성하는 기존 비디오 AI 모델과 달리, LTX-2 19B는 완전한 시청각 경험을 한 번에 생성합니다. 발걸음 소리가 걷기 애니메이션과 완벽하게 동기화됩니다. 주변 사운드스케이프가 시각적 환경과 일치합니다. 음성 같은 톤과 환경음이 텍스트 프롬프트에서 자연스럽게 나타납니다. 오디오 편집이 필요 없습니다.

LTX-2 19B란 무엇입니까?

LTX-2 19B는 동기화된 사운드와 비디오 생성을 하나의 통합 시스템에서 결합하는 첫 번째 DiT 기반(Diffusion Transformer) 오디오-비디오 기초 모델입니다. 190억 개의 파라미터를 갖춘 이 모델은 AI가 멀티미디어 콘텐츠를 생성하는 방식의 근본적인 아키텍처 전환을 나타냅니다.

2025년 말 Lightricks에서 공개되었으며 현재 완전히 오픈소스화된 LTX-2는 이미 시장에서 가장 개발자 친화적인 비디오 AI 모델 중 하나로 인정받았습니다. 소비자용 GPU에서 효율적으로 실행되고, 1080p까지의 해상도에서 프로덕션 수준의 출력을 제공하며, WaveSpeedAI 사용자에게 중요하게도 콜드 스타트가 없고 초당 합리적인 가격의 REST API를 통해 제공됩니다.

이 모델은 유연한 종횡비(16:9 가로 및 9:16 세로), 5~20초의 가변 길이, 품질, 속도, 비용의 균형을 맞추는 세 가지 해상도 계층(480p, 720p, 1080p)을 지원합니다.

LTX-2를 구별하는 주요 기능

동기화된 오디오-비디오 생성

LTX-2의 정의적 특징은 시각적 콘텐츠와 자연스럽게 정렬되는 오디오를 생성할 수 있다는 것입니다. “도시 스카이라인 위의 뇌우”를 입력하면 번개 번쩍임 그리고 천둥소리를 얻습니다. “어두운 클럽에서 공연하는 재즈 피아니스트”는 단순히 건반 위의 움직이는 손뿐만 아니라 라이브 공연의 주변 사운드스케이프를 생성합니다.

이것은 맨 위에 겹겹이 쌓은 배경 음악이 아닙니다. 시각적을 생성하는 동일한 확산 프로세스를 통해 생성된 상황별 오디오로, 시간적 및 의미적 정렬을 보장합니다.

프로덕션 수준의 품질

LTX-2 19B는 Sora 2 및 Kling 2.6과 같은 최고 수준의 경쟁사와 비교되었습니다. Sora 2가 특정 사용 사례에서 포토리얼리즘을 주도하지만, LTX-2는 설득력 있는 균형을 제공합니다: 자연스럽게 반응하는 캐릭터, 시간적으로 일관된 모션, 그리고 고유하게 20초 비디오 생성(Sora 2의 12초 상한선과 비교).

업계 비교에 따르면 LTX-2는 시각적 품질에서 Sora 2와 거의 동등한 수준을 달성하면서 세대당 약 40% 적은 비용이 들고 더 긴 지속 시간 출력을 제공합니다.

유연한 해상도 및 종횡비

WaveSpeedAI의 구현은 출력 형식에 대한 완전한 제어를 제공합니다:

480p: 빠른 반복, 최저 비용 - 빠른 프로토타이핑 및 여러 프롬프트 테스트에 이상적
720p: 균형 잡힌 품질과 비용, 대부분의 소셜 미디어 및 웹 사용 사례에 적합
1080p: 최종 결과물, 프레젠테이션, 고급 콘텐츠를 위한 최대 세부 정보

추가 도구 없이 플랫폼 요구 사항에 맞추기 위해 16:9 가로(YouTube, 데스크톱)와 9:16 세로(TikTok, Instagram Reels, Stories) 사이를 전환할 수 있습니다.

가변 길이 제어

5~20초의 클립을 생성합니다. 내러티브 비트를 설정하고, 제품 데모를 보여주거나, 완전한 소셜 미디어 스니펫을 만들기에 충분합니다. 이 확장된 길이는 LTX-2를 경쟁사와 구별하고 여러 생성 결과물을 연결할 필요성을 줄입니다.

실제 사용 사례

단편 소셜 콘텐츠

내장된 오디오로 TikTok, Reels, Stories를 몇 초 내에 만들 수 있습니다. 별도의 오디오 소싱, 라이선싱 또는 수동 동기화가 필요 없습니다. “네온 조명 터널을 통해 스케이트보드를 타는” 장면을 입력하면 업로드할 준비가 된 완전한 클립을 얻을 수 있습니다.

제품 시연

시각적 내러티브를 향상시키는 주변음이 있는 프로모션 비디오를 생성합니다. “햇빛이 들어오는 주방에서 도자기 머그에 커피를 붓는” 같은 프롬프트는 증기, 움직임, 그리고 액체가 도자기에 닿는 소리를 생성합니다.

마케팅 및 광고

응집력 있는 시청각 디자인으로 광고 콘텐츠를 만들 수 있습니다. LTX-2의 상황에 맞는 오디오를 생성하는 능력은 제품 샷이 일치하는 사운드스케이프와 함께 제공됨을 의미합니다. 스톡 오디오 라이브러리가 필요 없습니다.

프로토타이핑 및 개념 시각화

이해관계자 검토를 위해 아이디어를 빠르게 시각화합니다. 480p로 반복하여 프롬프트 변형을 테스트한 다음, 개념이 확정되면 1080p로 최종 렌더링합니다. 고정된 시드 파라미터는 반복 전체에서 재현성을 보장합니다.

콘텐츠 크리에이터 및 YouTuber

동기화된 사운드가 있는 B롤, 인트로 또는 내러티브 시퀀스를 생성합니다. 20초 길이 윈도우는 배경 장면, 전환 또는 독립적인 스토리 비트에 이상적입니다.

WaveSpeedAI에서 시작하는 방법

WaveSpeedAI에서 LTX-2 19B를 사용하는 것은 간단합니다:

모델 페이지로 이동: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
프롬프트 작성: 장면, 동작 및 특정 오디오 단서를 설명하세요(예: “자갈 위의 발걸음”, “먼 천둥”, “재즈 피아노”)
설정 구성:
- 해상도: 480p(빠른 반복), 720p(균형), 또는 1080p(최종 품질) 중 선택
- 종횡비: 가로는 16:9, 세로는 9:16
- 길이: 콘텐츠 필요에 따라 5~20초
- 시드(선택사항): 재현 가능한 결과를 위해 고정 값 설정
실행: 요청을 제출하고 동기화된 오디오가 있는 비디오를 받습니다. 후처리가 필요 없습니다.

WaveSpeedAI는 모든 인프라를 처리합니다: 즉시 콜드 스타트, 최적화된 추론, 초당 청구. 생성한 것에 대해서만 비용을 지불하며, $0.06에서 시작하는 투명한 가격으로 5초 480p 클립을 생성할 수 있습니다.

Python SDK 예제

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

확장 가능한 가격

WaveSpeedAI는 해상도 및 길이에 따라 확장되는 사용량 기반 가격을 제공합니다:

해상도	5초	10초	15초	20초
480p	$0.06	$0.12	$0.18	$0.24
720p	$0.08	$0.16	$0.24	$0.32
1080p	$0.12	$0.24	$0.36	$0.48

이 가격 모델은 낮은 해상도에서 자유롭게 반복하고 최종 출력을 위해 고품질 렌더링을 예약할 수 있도록 보장하며, 창의적 유연성과 비용 효율성을 모두 최대화합니다.

WaveSpeedAI를 선택하는 이유

WaveSpeedAI는 프로덕션 워크플로우에 필요한 인프라 이점을 제공합니다:

콜드 스타트 없음: 장시간 유휴 후에도 즉시 추론
빠른 추론: 최소 대기 시간을 위한 최적화된 GPU 할당
합리적인 가격: 사용하는 초와 해상도에 대해서만 비용 지불
REST API: 기존 워크플로우, 자동화 파이프라인 또는 사용자 정의 애플리케이션으로의 간단한 통합
투명한 청구: 숨겨진 수수료, 구독 계층 또는 컴퓨팅 크레딧 없음

최상의 결과를 위한 전문가 팁

오디오에 구체적으로: 오디오가 자동으로 생성되지만, 프롬프트에 소리를 설명하면(“뇌우”, “재즈 음악”, “발걸음”) 모델을 안내하는 데 도움이 됩니다.
플랫폼에 맞는 종횡비: 세로 우선 플랫폼(TikTok, Stories)에는 9:16을 사용하고, YouTube 및 데스크톱에는 16:9를 사용합니다.
480p에서 반복: 낮은 비용으로 프롬프트를 조정한 다음, 최종 배포를 위해 1080p로 업스케일합니다.
고정된 시드 사용: 프롬프트 변형을 테스트할 때 시드를 잠그면 변경 사항의 효과를 분리할 수 있습니다.
여러 클립 결합: 더 긴 콘텐츠의 경우 20초 세그먼트를 생성하고 후처리에서 함께 편집합니다.

오디오비주얼 AI의 미래

LTX-2 19B는 비디오 AI의 근본적인 전환을 나타냅니다. 무음 클립 생성에서 완전한 시청각 경험 생성으로 말입니다. 첫 번째 DiT 기반 오디오-비디오 기초 모델로서, 크리에이터가 생성형 비디오 도구에 기대할 수 있는 것의 새로운 기준을 설정합니다.

WaveSpeedAI가 인프라를 처리하고 Lightricks의 오픈소스 모델이 최첨단 생성 품질을 제공하면서, 중요한 것에 집중할 수 있습니다: 설득력 있는 콘텐츠 창작.

오늘 LTX-2 19B를 시도하세요

첫 번째 동기화된 오디오-비디오 클립을 생성할 준비가 되셨나요? WaveSpeedAI의 LTX-2 19B 모델 페이지로 이동하여 창작을 시작하세요. 솔로 크리에이터, 마케팅 팀 또는 자동화된 콘텐츠 파이프라인을 구축하는 개발자이든, LTX-2 19B는 필요에 따라 확장되는 가격으로 프로덕션 수준의 결과를 제공합니다.

지금 생성 시작: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video