WaveSpeedAI LTX 2.3 Image-to-Video LoRA, WaveSpeedAI에 출시

커스텀 스타일로 이미지에 생동감을 불어넣으세요: LTX-2.3 이미지-투-비디오 LoRA 출시

정적 이미지는 강력하지만, 움직임이 이야기를 전합니다. WaveSpeedAI에 LTX-2.3 이미지-투-비디오 LoRA가 도입되면서, 이제 어떤 정지 이미지든 동기화된 오디오가 포함된 고화질 영상으로 변환할 수 있습니다. 또한 LoRA 어댑터를 통해 직접 학습한 스타일, 캐릭터, 모션 패턴으로 출력물을 자유롭게 커스터마이즈할 수 있습니다.

190억 개의 파라미터를 갖춘 Lightricks의 최신 Diffusion Transformer(DiT) 아키텍처 기반의 LTX-2.3은 오픈소스 비디오 생성 분야에서 세대적 도약을 의미합니다. WaveSpeedAI의 LoRA 지원을 통해 기본 모델의 기본값에 국한될 필요 없이, 브랜드 고유의 미학, 특정 시네마틱 룩, 또는 캐릭터의 외형을 생성 파이프라인에 직접 주입할 수 있습니다.

LTX-2.3 이미지-투-비디오 LoRA란?

LTX-2.3은 Lightricks의 최신 오디오-비디오 파운데이션 모델로, 이 변형 모델은 이미지 기반 비디오 생성과 LoRA 파인튜닝 지원이라는 두 가지 기능을 결합하고 있습니다.

실제로 어떤 의미인지 설명하자면, 참조 이미지(제품 사진, 인물 사진, 컨셉 아트 등)를 제공하면 모델이 단일 패스로 자연스러운 모션과 동기화된 오디오를 갖춘 영상으로 애니메이션화합니다. LoRA 레이어를 통해 최대 세 개의 커스텀 어댑터를 동시에 적용하여, 직접 학습한 데이터를 기반으로 특정 시각적 스타일, 모션 역학, 또는 캐릭터 외형으로 출력을 유도할 수 있습니다.

결과적으로 기본 상태에서도 강력하면서 전문적인 워크플로에 맞게 깊이 있는 커스터마이즈가 가능한 비디오 생성 파이프라인을 갖추게 됩니다.

LTX-2.3의 새로운 점

LTX-2.3은 단순한 점진적 업데이트가 아닙니다. Lightricks는 모델의 핵심 구성 요소 세 가지를 재설계했습니다:

재설계된 VAE: 더 높은 품질의 데이터로 학습된 새로운 변분 오토인코더가 더 선명한 세부 묘사, 더 사실적인 텍스처, 더 깔끔한 엣지를 만들어냅니다. 머리카락, 텍스트, 작은 오브젝트가 전체 프레임에 걸쳐 선명도를 유지하며, 특히 고해상도에서 두드러지는 개선입니다.
4배 확장된 텍스트 커넥터: 새로운 게이티드 어텐션 메커니즘으로 프롬프트가 더욱 충실하게 반영됩니다. 타이밍, 모션, 표정, 오디오 큐에 대한 설명이 생성된 출력물에 더 정확하게 반영됩니다.
개선된 HiFi-GAN 보코더: 더 깨끗한 음질, 줄어든 노이즈 아티팩트, 대화·음악·주변 오디오의 향상된 처리로 오디오 품질이 크게 향상되었습니다. 이전 버전에서 문제가 됐던 무음 구간과 아티팩트가 필터링되었습니다.
향상된 이미지-투-비디오 모션: 입력 프레임에서 더 자연스럽고 현실적인 모션을 생성합니다. 정적인 ‘켄 번즈’ 패닝 효과가 줄어들고, 참조 이미지의 구도·조명·피사체를 존중하는 진정한 애니메이션을 구현합니다.
네이티브 세로 영상 지원: 가로에서 자르지 않고 9:16 세로 영상을 네이티브로 생성할 수 있어 소셜 미디어와 모바일 우선 콘텐츠에 최적입니다.

주요 기능

동기화된 오디오-비디오 생성: 오디오가 단일 모델 패스에서 비디오와 함께 생성되므로 별도의 오디오 파이프라인이 필요 없습니다. 시각적 모션과 프롬프트 큐에 맞게 상황에 맞는 사운드가 생성됩니다.
LoRA 커스터마이즈: 최대 3개의 LoRA 어댑터를 동시에 적용하여 스타일, 모션, 외형을 제어합니다. 각 어댑터에는 세밀한 블렌딩을 위한 스케일 파라미터가 포함됩니다.
유연한 해상도: 빠른 반복 작업을 위한 480p, 균형 잡힌 품질의 720p, 최종 납품용 1080p 중 선택할 수 있습니다.
가변 길이: 단일 패스로 5초에서 20초 분량의 클립을 생성합니다.
구도 보존: 모델이 입력 이미지의 피사체, 프레이밍, 조명을 유지하면서 자연스럽고 일관된 모션을 추가합니다.

실제 활용 사례

제품 마케팅

제품 사진을 눈길을 사로잡는 영상 광고로 변환합니다. 주요 이미지를 업로드하고 미묘한 모션과 주변 오디오를 설명한 후, 브랜드 스타일 LoRA를 적용하여 전체 캠페인에 걸쳐 시각적 일관성을 유지합니다.

캐릭터 애니메이션

특정 캐릭터나 마스코트로 LoRA를 학습시킨 후, 해당 캐릭터가 등장하는 모든 포즈나 장면을 일관된 외형으로 애니메이션화합니다. 인지도 있는 IP를 구축하는 애니메이션 스튜디오, 게임 개발사, 콘텐츠 크리에이터에게 이상적입니다.

소셜 미디어 콘텐츠

정적인 소셜 포스트를 스크롤을 멈추게 하는 영상 콘텐츠로 전환합니다. 네이티브 세로 모드 지원으로 후처리 없이 TikTok 및 Instagram Reels용 세로 영상을 바로 생성할 수 있습니다.

시네마틱 스토리텔링

스토리보드 프레임이나 컨셉 아트를 특정 시네마틱 스타일 LoRA(필름 누아르, 애니메, 다큐멘터리 등)로 애니메이션화하여 어울리는 오디오 분위기가 담긴 일관된 영상을 얻습니다.

대규모 브랜드 일관 콘텐츠

스타일 LoRA를 사용하여 비디오 생성을 특정 미적 가이드라인에 맞춥니다. 클립 하나를 생성하든 수백 개를 생성하든, 모든 콘텐츠에 브랜드의 시각적 특성이 담깁니다.

WaveSpeedAI에서 시작하기

몇 줄의 코드만으로 시작할 수 있습니다:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "resolution": "720p",
    "duration": 5,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/wavespeed-ai/ltx-2.3/image-to-video-lora", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

사용량에 따라 확장되는 가격

해상도	5초	10초	15초	20초
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.25	$0.50	$0.75	$1.00

480p로 시작하여 프롬프트와 LoRA 조합을 빠르게 반복 테스트한 후, 최종 출력이 준비되면 1080p로 업스케일하세요.

최상의 결과를 위한 팁

특정 사운드를 원할 때는 오디오를 명시적으로 설명하세요: “창문에 내리는 빗소리,” “경쾌한 재즈,” 또는 “군중의 박수.”
모션 프롬프트는 간결하게 유지하세요 — 프롬프트당 하나의 명확한 액션이 가장 일관된 결과를 만들어냅니다.
선명하고 노출이 잘 된 고품질 입력 이미지를 사용하면 최고의 애니메이션 충실도를 얻을 수 있습니다.
480p에서 빠르게 반복하고, 최종 버전은 720p 또는 1080p로 렌더링하세요.
고정 시드를 사용하여 LoRA 변형을 비교할 때 스타일 변화와 무작위 변동을 분리하세요.

결론

WaveSpeedAI의 LTX-2.3 이미지-투-비디오 LoRA는 전문적인 워크플로가 요구하는 깊이 있는 커스터마이즈와 함께 프로덕션급 비디오 생성 기능을 제공합니다. 개선된 시각적 품질, 동기화된 오디오, LoRA 어댑터 지원의 조합은 단순히 일반적인 영상을 생성하는 것이 아니라, 당신만의 스타일로, 당신이 원하는 규모로 당신의 영상을 생성할 수 있음을 의미합니다.

콜드 스타트 없음, 빠른 인퍼런스, 투명한 초당 가격 책정으로 시작에 어떤 장벽도 없습니다.

지금 WaveSpeedAI에서 LTX-2.3 이미지-투-비디오 LoRA를 사용해보세요. 당신의 이미지가 무엇이 될 수 있는지 확인하세요.