WaveSpeedAI LTX 2.3 이미지-비디오 변환, WaveSpeedAI에 출시

WaveSpeedAI에서 LTX-2.3 Image-to-Video로 이미지에 생명을 불어넣으세요

정지 이미지는 이야기를 전달합니다. 사운드가 함께하는 움직이는 이미지는 관객이 느끼게 만듭니다. WaveSpeedAI에서 이제 사용 가능한 LTX-2.3 Image-to-Video를 통해 모든 정지 이미지를 단 한 번의 생성으로 고품질 영상으로 변환할 수 있습니다 — 동기화된 오디오까지 완벽하게. 후반 작업도, 별도의 오디오 도구도 필요 없습니다. 업로드하고, 프롬프트를 입력하고, 재생하면 끝입니다.

Lightricks가 Diffusion Transformer(DiT) 아키텍처를 기반으로 개발한 LTX-2.3은 통합 오디오-비디오 생성 분야에서 획기적인 도약을 나타냅니다. 대부분의 이미지-투-비디오 모델이 별도의 사운드 디자인이 필요한 무음 클립을 생성하는 반면, LTX-2.3은 모션과 오디오를 하나의 일관된 출력으로 함께 생성합니다. 그 결과물은 첫 프레임부터 완성된 느낌의 애니메이션 콘텐츠입니다.

LTX-2.3이란?

LTX-2.3은 LTX-2 모델 패밀리의 최신 버전으로, 약 190억 개의 파라미터를 갖춘 파운데이션 모델입니다 — 비디오 처리에 약 140억 개, 오디오에 50억 개가 할당됩니다. 크로스 어텐션 메커니즘을 사용하여 사운드와 모션을 완벽하게 정렬하는 단일 통합 아키텍처 내에서 동기화된 오디오와 비디오를 생성할 수 있는 최초의 오픈소스 모델 중 하나입니다.

“2.3” 릴리스는 이전 버전 대비 의미 있는 개선 사항을 도입했습니다: 더 높은 품질의 데이터로 학습된 재구축된 VAE(Variational Autoencoder), 더 깨끗한 오디오 출력을 위한 업그레이드된 HiFi-GAN 보코더, 강화된 이미지-투-비디오 일관성, 그리고 생성 파이프라인 전반에 걸친 향상된 프롬프트 준수 기능이 포함됩니다.

주요 기능

동기화된 오디오-비디오 생성: 사운드가 나중에 덧붙여지는 방식이 아닙니다. 주변 소음, 음악, 대화 신호, 음향 효과가 단 한 번의 생성으로 시각적 모션과 함께 생성되어 별도의 오디오 워크플로우가 필요 없습니다.
더 선명한 디테일을 위한 새로운 VAE: LTX-2.3의 재구축된 잠재 공간은 전체 프레임에 걸쳐 세밀한 텍스처, 얼굴 특징, 머리카락, 텍스트, 엣지 디테일을 보존합니다. 출력물은 이전 버전보다 눈에 띄게 선명합니다.
더 깨끗한 오디오 출력: 개선된 HiFi-GAN 보코더가 노이즈 아티팩트와 침묵 구간을 줄입니다. 대화, 주변 사운드, 음악이 눈에 띄게 향상된 선명도로 전달됩니다.
충실한 이미지 보존: 모델은 자연스럽고 일관된 모션을 추가하면서도 참조 이미지의 피사체, 구도, 프레이밍, 조명을 유지합니다 — 정체성 변형이나 시각적 품질 저하 없이.
유연한 해상도 및 길이: 480p, 720p, 1080p로 비디오를 생성할 수 있으며, 길이는 5초에서 20초까지 조정 가능하여 품질, 비용, 창작 요구 사항을 균형 있게 맞출 수 있습니다.
세로 및 가로 모드 지원: 네이티브 9:16 세로 모드를 통해 Instagram Reels, TikTok, YouTube Shorts 같은 소셜 플랫폼에 최적화된 콘텐츠를 쉽게 제작할 수 있습니다.
24/48 FPS 옵션: 표준 재생부터 더 부드러운 고프레임레이트 출력까지, 출력 요구 사항에 맞는 프레임 레이트를 선택하세요.

실제 활용 사례

제품 마케팅

제품 사진을 역동적인 쇼케이스 영상으로 변환하세요. 스니커즈, 스킨케어 병, 가구의 메인 사진을 업로드하면 LTX-2.3이 — 회전 뷰, 변화하는 조명, 환경적 분위기 — 섬세한 모션으로 애니메이션화하면서 매칭되는 주변 오디오를 생성합니다. 이전에는 촬영 감독과 사운드 디자이너가 필요했던 작업을 이제 몇 초 만에 초안으로 만들 수 있습니다.

소셜 미디어 콘텐츠

숏폼 비디오에 대한 수요는 끊임없습니다. LTX-2.3을 사용하면 크리에이터가 가장 강력한 정지 이미지를 내장 사운드와 함께 스크롤을 멈추게 하는 애니메이션 게시물로 변환할 수 있습니다. 풍경 사진은 바람 소리와 새소리가 담긴 시네마틱한 순간이 되고, 음식 사진은 지글지글 김이 나는 클립으로 변해 바로 게시할 수 있습니다.

인물 및 캐릭터 애니메이션

증명사진, 인물 사진, 캐릭터 아트워크를 자연스러운 움직임으로 애니메이션화하세요. 이 모델은 생동감 있는 모션을 추가하면서 얼굴 정체성을 보존하는 데 탁월합니다 — 섬세한 고개 돌림, 눈 깜빡임, 표정 변화 — 디지털 아바타, 창작 프로젝트, 개인화된 콘텐츠에 유용합니다.

스토리보딩 및 사전 시각화

영화감독과 크리에이티브 디렉터에게 LTX-2.3은 정적인 스토리보드 프레임과 컨셉 아트를 동기화된 오디오가 담긴 애니메이션 시퀀스로 변환합니다. 단 한 프레임도 촬영하기 전에 이해관계자들에게 페이싱, 분위기, 사운드 디자인에 대한 실질적인 느낌을 제공함으로써 프리프로덕션을 가속화합니다.

이커머스 및 광고

정적인 제품 목록은 주목도를 잃습니다. 주변 사운드가 포함된 애니메이션 제품 영상은 참여도와 전환율을 높입니다. LTX-2.3은 대규모로 비디오 에셋을 생성하는 것을 실용적으로 만듭니다 — 480p로 빠르게 반복 작업하고 최종 에셋은 1080p로 렌더링하세요.

WaveSpeedAI에서 시작하기

WaveSpeedAI에서 LTX-2.3 Image-to-Video를 실행하는 것은 간단합니다. 콜드 스타트 없이 빠른 추론으로 몇 분이 아닌 몇 초 만에 결과를 얻을 수 있습니다.

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

해상도와 길이도 지정할 수 있습니다:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A futuristic city at blue hour with soft volumetric light",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

프로 팁: 프롬프트와 모션 방향을 조정하려면 480p와 짧은 길이로 시작하세요. 원하는 결과를 얻었다면 최종 납품을 위해 1080p로 스케일업하세요. 프롬프트 변형을 비교할 때는 고정 시드를 사용하여 무엇이 변경되었는지 정확히 파악하세요.

가격

WaveSpeedAI의 LTX-2.3은 480p 5초 클립 기준 단 $0.10부터 시작하며, 20초 1080p 비디오는 최대 $0.80까지입니다. 구독 불필요 — 생성한 것에 대해서만 지불하세요.

해상도	5초	10초	15초	20초
480p	$0.10	$0.20	$0.30	$0.40
720p	$0.15	$0.30	$0.45	$0.60
1080p	$0.20	$0.40	$0.60	$0.80

왜 WaveSpeedAI인가?

Veo 3.1, Kling 3.0, Sora 2 같은 모델들이 모두 경계를 넓히며 동기화된 오디오-비디오 생성이 빠르게 표준이 되어가는 환경에서, LTX-2.3은 프로덕션급 품질을 갖춘 강력한 오픈소스 옵션으로 두드러집니다. 그리고 WaveSpeedAI에서 실행하면 그에 걸맞는 인프라를 갖출 수 있습니다: 콜드 스타트 없는 빠른 추론, 간단한 API 통합, 그리고 실험을 부담 없이 할 수 있는 가격 정책.

소셜 콘텐츠를 애니메이션화하는 솔로 크리에이터든, 대규모로 비디오 에셋을 생성하는 팀이든, LTX-2.3의 통합 오디오-비디오 생성과 WaveSpeedAI의 최적화된 인프라의 조합은 기다리는 시간을 줄이고 창작하는 시간을 늘려줍니다.