WaveSpeedAI LTX 2 19b LipSync, WaveSpeedAI에 출시

LTX-2 19B Lipsync 소개: 오디오 기반 토킹 헤드 비디오 생성

정적 이미지와 동적 비디오 콘텐츠 간의 경계는 AI 기술의 발전과 함께 계속 흐려지고 있습니다. 오늘 우리는 WaveSpeedAI에서 LTX-2 19B Lipsync의 출시를 발표하게 되어 기쁩니다. 이는 참고 초상화를 놀라운 충실도와 자연스러운 움직임으로 동기화된 토킹 헤드 비디오로 변환하는 강력한 오디오 기반 모델입니다.

디지털 아바타를 만들거나, 콘텐츠를 여러 언어로 로컬화하거나, 대규모 교육용 비디오를 제작하든 LTX-2 Lipsync는 콜드 스타트 없이 간단한 REST API를 통해 합리적인 가격으로 전문 수준의 결과를 제공합니다.

LTX-2 19B Lipsync란 무엇인가요?

LTX-2 Lipsync는 Lightricks의 획기적인 LTX-2 기초 모델을 기반으로 하며, 동기화된 오디오비주얼 생성을 위해 특별히 설계된 190억 개 매개변수 확산 변환기(DiT) 아키텍처입니다. 단순히 입 움직임을 애니메이션하는 기존의 립싱크 도구와 달리, LTX-2는 오디오와 비디오 간의 양방향 관계를 이해합니다. 음성이 입 움직임을 결정하는 동시에 시각적 맥락이 결과가 얼마나 자연스러운지를 형성합니다.

이 모델은 양방향 교차 주의 계층과 시간 위치 임베딩을 포함한 비대칭 이중 스트림 변환기 아키텍처를 활용합니다. 이러한 기술적 정교함은 실질적인 이점으로 이어집니다. 오디오비주얼 정렬의 서브프레임 정밀도, 음성에 수반하는 자연스러운 머리 움직임, 오디오의 감정적 톤과 일치하는 표정 등이 그것입니다.

그 결과는 입술만 움직이는 것이 아니라 살아있는 듯한 토킹 헤드 비디오입니다.

주요 기능

오디오 기반 생성: 오디오 파일과 선택적 참고 이미지를 업로드하면 모델이 립싱크, 머리 움직임 및 얼굴 표정을 자동으로 처리합니다
19B 매개변수 DiT 아키텍처: 대규모 매개변수 수는 매우 상세하고 시간적으로 일관성 있는 비디오를 가능하게 하며, 자연스러운 입 움직임이 음성 패턴과 일치합니다
유연한 해상도 옵션: 480p(빠른 반복), 720p(균형잡힌 품질), 1080p(최대 세부 사항)에서 선택하여 워크플로우와 예산에 맞힙니다
가변 지속 시간 지원: 5~20초 비디오를 생성하며, 길이는 오디오 입력에 따라 자동으로 결정됩니다
자연스러운 표정 합성: 기본적인 입 움직임을 넘어 자연스러운 음성에 수반하는 미세한 머리 기울임, 눈 움직임 및 얼굴 표정을 포함합니다
다국어 지원: 여러 언어에서 작동하며 다양한 음성 패턴과 입 모양의 뉘앙스를 처리합니다

실제 사용 사례

디지털 아바타 및 가상 진행자

가상 호스트, 브랜드 앰버서더 또는 AI 기반 고객 서비스 담당자를 위한 일관성 있는 토킹 헤드 비디오를 만듭니다. 음성 메시지를 다양화하면서 시각적 일관성을 유지합니다.

콘텐츠 로컬화 및 더빙

기존 비디오 콘텐츠를 새로운 언어로 더빙하면서 원래 화자의 모습을 유지합니다. 이는 국제 마케팅 캠페인, 교육 자료 및 국제 관객에게 도달해야 하는 엔터테인먼트 콘텐츠에 특히 유용합니다.

소셜 미디어 및 마케팅

소셜 플랫폼용 토킹 헤드 콘텐츠를 대규모로 제작합니다. 전통적인 비디오 제작의 오버헤드 없이 개인화된 비디오 메시지, 제품 발표 또는 교육 콘텐츠를 만듭니다.

전자학습 및 교육 콘텐츠

일관성 있는 가상 진행자를 통해 교육용 비디오를 생성합니다. 온라인 과정, 기업 교육 및 대량의 비디오 콘텐츠를 효율적으로 제작해야 하는 교육 플랫폼에 완벽합니다.

접근성 애플리케이션

수화 해석 비디오 또는 명확한 시각적 음성 단서가 있는 나레이션이 있는 콘텐츠를 포함하여 접근성 목적으로 동기화된 시각 콘텐츠를 만듭니다.

WaveSpeedAI에서 시작하기

WaveSpeedAI의 API를 통해 LTX-2 Lipsync를 사용하는 것은 간단합니다. 간단한 예를 들어보겠습니다:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/lipsync",
    {
        "audio": "https://your-audio-url.com/speech.mp3",
        "image": "https://your-image-url.com/portrait.jpg",
        "resolution": "720p"
    },
)

print(output["outputs"][0])  # Output video URL

API는 세 가지 주요 매개변수를 허용합니다:

audio (필수): 오디오 파일의 URL - 이는 립싱크를 구동하고 비디오 길이를 결정합니다
image (선택사항): 화자의 모습을 정의하는 참고 초상화의 URL
resolution (선택사항): 출력 품질 - 480p, 720p(기본값) 또는 1080p

필요에 맞춰 확장되는 가격 책정

LTX-2 Lipsync 가격 책정은 투명하고 저렴합니다:

해상도	5초	10초	15초	20초
480p	$0.075	$0.15	$0.225	$0.30
720p	$0.10	$0.20	$0.30	$0.40
1080p	$0.15	$0.30	$0.45	$0.60

빠른 반복을 위해 480p로 시작한 다음 최종 제공을 위해 더 높은 해상도로 확장합니다.

최고의 결과를 위한 팁

명확하고 고품질의 오디오 사용: 음성 오디오가 명확할수록 립싱크가 더 잘됩니다. 배경 소음을 최소화하고 일관된 음량 수준을 유지합니다.
정면을 바라보는 초상화 선택: 명확히 보이는 입과 중립적인 표정의 참고 이미지가 가장 잘 작동합니다. 극단적인 각도나 가려진 얼굴은 피합니다.
낮은 해상도에서 반복: 480p에서 결과를 조정한 다음 시간과 비용을 절약하기 위해 최종 버전을 720p 또는 1080p로 렌더링합니다.
비교를 위해 고정된 시드 사용: 변형을 비교할 때 고정된 시드 값을 설정하여 다른 매개변수 변경의 효과를 격리합니다.
오디오를 20초 이하로 유지: 최대 비디오 지속 시간은 20초입니다. 더 긴 콘텐츠의 경우 여러 클립을 생성하고 후처리에서 결합합니다.

WaveSpeedAI를 선택해야 하는 이유?

WaveSpeedAI에서 LTX-2 Lipsync를 실행하면 다음을 얻을 수 있습니다:

콜드 스타트 없음: 요청이 즉시 처리되기 시작합니다 - 인프라가 시작될 때까지 기다릴 필요가 없습니다
빠른 추론: 최적화된 인프라는 빠른 결과를 제공하여 빠른 반복을 가능하게 합니다
간단한 REST API: 몇 줄의 코드로 애플리케이션에 립싱크 기능을 통합합니다
투명한 가격 책정: 생성한 것에만 비용을 지불하며 숨겨진 비용이나 최소 약정이 없습니다

오늘 창작을 시작하세요

LTX-2 19B Lipsync는 접근 가능하고 고품질의 토킹 헤드 비디오 생성에서 중요한 진전을 나타냅니다. Lightricks의 고급 DiT 아키텍처와 WaveSpeedAI의 최적화된 추론 인프라의 결합은 전문 수준의 립싱크를 모든 개발자 또는 콘텐츠 제작자가 접근할 수 있게 합니다.

이미지에 생명을 불어넣을 준비가 되셨습니까? WaveSpeedAI에서 LTX-2 Lipsync를 시도하고 잘 작동하는 오디오 기반 비디오 생성을 경험해보세요.