Kuaishou Kling Image O3 Edit, WaveSpeedAI에 출시

Kling Image O3 Edit 소개: Kuaishou의 Omni 아키텍처로 구현한 다중 참조 이미지 합성

AI 이미지 생성기가 생성할 수 있는 것과 편집할 수 있는 것 사이의 간극은 빠르게 좁혀지고 있습니다. 하지만 합성—여러 소스 이미지에서 요소를 지능적으로 결합해 하나의 일관된 장면을 만드는 작업—은 여전히 이 분야에서 가장 어려운 문제 중 하나였습니다. Kuaishou의 Kling Image O3 Edit은 다중 참조 이미지 합성 및 편집을 위해 특별히 설계된 모델로 이 간극을 해소합니다. O3(Omni 3) 아키텍처를 기반으로 하며 최대 4K 해상도의 결과물을 생성할 수 있습니다. 지금 WaveSpeedAI에서 사용 가능합니다.

Kling Image O3 Edit이란?

Kling Image O3 Edit은 Kuaishou의 최신 이미지 편집 모델로, O3 아키텍처를 기반으로 구축되었습니다. 이는 Kling의 최상위 동영상 및 이미지 생성 모델을 지원하는 동일한 통합 멀티모달 기반입니다. 이전 Kling 편집 모델이 단일 참조 이미지만 처리했던 것과 달리, O3 Edit은 최대 10개의 참조 이미지를 동시에 받아들여 완전히 새로운 범주의 창작 워크플로를 가능하게 합니다.

결합하고 싶은 사람, 사물, 스타일, 또는 환경이 담긴 사진 세트를 업로드하고, 이것들을 어떻게 합쳐야 하는지 자연어로 설명하기만 하면 됩니다. 모델이 지시사항을 해석하고 각 참조에서 요소를 혼합하여, 소스 자료의 정체성, 조명, 스타일을 존중하는 새로운 이미지를 생성합니다. 수동 마스킹, 레이어 관리, Photoshop 전문 지식이 필요 없습니다.

내부적으로 O3 아키텍처는 대형 언어 모델이 “단계별로 생각하는” 방식에서 차용한 시각적 사고의 연쇄(Visual Chain-of-Thought, vCoT) 추론 프로세스를 도입합니다. 단 하나의 픽셀을 렌더링하기 전에 모델은 암묵적인 장면 분해와 인과 추론을 수행하여, 피사체를 어떻게 배치할지, 참조 간 조명 충돌을 어떻게 해결할지, 가려짐을 어떻게 처리할지 계획합니다. 이것이 Kling Image O3 Edit이 매우 다른 소스 사진의 요소를 결합할 때도 단순히 붙여넣은 느낌이 아닌 의도적인 합성물을 생성하는 이유입니다.

주요 기능

다중 참조 합성 (최대 10개 이미지): 최대 10개의 참조 이미지를 모델에 제공하고 프롬프트에서 번호로 참조합니다—“사진 1의 사람이 사진 3의 의상을 입고 사진 5의 환경에 서 있게 해주세요.” 모델은 각 참조에서 고유한 정체성과 스타일을 유지합니다.
텍스트 기반 편집: 모든 편집은 자연어로 구동됩니다. 원하는 것을 대화하듯 설명하면 모델이 실행 방법을 결정합니다. 전통적인 편집 소프트웨어에서 몇 시간이 걸릴 복잡한 합성 작업이 단 한 문장으로 줄어듭니다.
네이티브 4K 해상도: 추론 파이프라인에서 직접 1K, 2K, 또는 4K 해상도의 이미지를 생성합니다. 4K 출력은 피부 모공, 직물 짜임, 재질 표면 등 물리적으로 정확한 마이크로 텍스처를 제공하여 상업용 인쇄 및 대형 포맷 디스플레이에 적합한 수준을 달성합니다.
유연한 화면 비율: 참조 이미지를 기반으로 자동 감지하거나, 1:1, 3:4, 4:3, 9:16, 16:9 등에서 수동으로 선택할 수 있습니다. 나중에 자르지 않고도 모든 플랫폼이나 형식에 맞게 출력을 조정할 수 있습니다.
배치 생성: 단일 요청에서 여러 변형을 생성합니다. 하나의 합성 프롬프트를 제출하면 비교할 수 있는 여러 해석을 받을 수 있어, 반복적인 API 호출 없이 창작 방향을 탐색할 수 있습니다.
캐릭터 정체성 보존: O3 아키텍처의 고급 3D 재구성 기술 덕분에 완전히 새로운 맥락, 포즈, 또는 조명 조건에 배치되더라도 얼굴과 캐릭터 특징이 참조 이미지에 충실하게 유지됩니다.

실제 활용 사례

캐릭터 합성 및 소셜 콘텐츠

O3 Edit의 가장 독특한 기능은 별도의 사진에서 사람들을 하나의 공유된 장면에 결합하는 것입니다. 한 번도 만난 적 없는 친구들을 나란히 배치하거나, 개별 초상화에서 단체 사진을 만들거나, 서로 다른 맥락의 사람들이 등장하는 상상력 넘치는 시나리오를 생성할 수 있습니다. 콘텐츠 크리에이터는 실제로 촬영하기 불가능한 매력적인 소셜 미디어 게시물을 제작할 수 있습니다.

마케팅 및 광고

크리에이티브 팀은 서로 다른 촬영에서 가져온 모델, 환경, 라이프스타일 요소와 제품을 합성할 수 있습니다. 각각 별도의 사진 라이브러리에서 가져온 제품, 특정 장소, 특정 모델을 결합하여 단 하나의 세련된 장면으로 만드는 캠페인 비주얼을 구성하세요. 표준 해상도에서 이미지당 $0.028로 수십 가지 합성 변형을 반복 작업하는 비용이 단 하나의 스톡 사진 라이선스보다 저렴합니다.

스타일 전환 및 창의적 매쉬업

콘텐츠 참조와 함께 스타일 참조 이미지를 업로드하면, 한 소스의 시각적 미학과 다른 소스의 피사체를 혼합한 이미지를 생성할 수 있습니다. 제품 사진을 수채화 스타일로 변환하거나, 노을의 색상 팔레트를 초상화에 적용하거나, 예술적 참조를 완전히 새로운 것으로 합쳐보세요.

이커머스 및 제품 시각화

실제 사진 촬영 없이 제품-맥락 이미지를 대규모로 생성합니다. 제품 이미지를 다양한 배경 환경, 보완 아이템, 또는 라이프스타일 장면과 결합하세요. 가구 회사는 소파를 다양한 방 설정에 배치할 수 있으며, 각각 다른 참조 사진에서 가져와 소수의 소스 이미지만으로 전체 카탈로그에 달하는 라이프스타일 이미지를 생성할 수 있습니다.

스토리보드 및 내러티브 디자인

동일한 참조 이미지와 다른 프롬프트를 사용하여 일련의 장면에서 일관된 캐릭터를 유지합니다. O3 Edit의 정체성 보존 기능은 캐릭터가 첫 번째 장면이든 스무 번째 장면이든 동일하게 보이도록 보장하여, 만화 제작, 스토리보드, 시각적 내러티브 작업에 실용적입니다.

WaveSpeedAI에서 시작하기

WaveSpeedAI는 프로덕션 워크플로가 요구하는 인프라 이점을 갖추고 Kling Image O3 Edit을 제공합니다:

콜드 스타트 없음: 모든 요청이 즉시 실행됩니다. 모델 로딩 지연도, 대기열도 없습니다—즉각적인 추론만 있습니다. 이는 실시간으로 반복 작업할 때나 즉각적인 결과를 기대하는 최종 사용자를 응대할 때 매우 중요합니다.

빠른 추론: WaveSpeedAI의 최적화된 인프라는 4K 해상도에서도 합성 및 편집 워크플로를 반응적으로 유지합니다.

합리적인 가격: 표준 및 2K 이미지는 각각 $0.028에 불과합니다. 4K 이미지는 $0.056입니다. 표준 해상도에서 $3 미만으로 전문가 품질의 합성물 100개를 생성하세요.

API 빠른 시작

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg"
    ],
    "aspect_ratio": "auto",
    "resolution": "1k",
    "num_images": 1,
    "output_format": "png",
    "shot_type": "customize"
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/kwaivgi/kling-image-o3/edit", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

최상의 결과를 위한 팁

프롬프트에서 번호로 특정 이미지를 참조하세요. “사진 3의 의상을 입은 사진 1의 사람”이 모호한 설명보다 훨씬 효과적입니다.
고품질의 조명이 잘 된 참조 이미지를 사용하세요. 조명이 좋은 명확한 피사체가 최상의 합성 결과를 만들어냅니다. 모델은 참조 이미지에 있는 것을 그대로 보존하므로, 입력 품질이 출력 품질을 결정합니다.
num_images를 1 이상으로 설정하여 여러 변형을 생성하고 합성의 다양한 해석을 탐색하세요.
해상도를 신중하게 선택하세요. 빠른 반복 작업과 미리보기에는 1K 또는 2K를 사용하고, 인쇄 품질의 세부 사항이 필요한 최종 출력으로 전환할 때 4K를 선택하세요.
자동 화면 비율은 참조 이미지가 비슷한 비율을 공유할 때 잘 작동합니다. Instagram Stories(9:16) 또는 YouTube 썸네일(16:9)과 같은 특정 플랫폼을 타겟팅할 때는 수동 선택으로 전환하세요.

WaveSpeedAI의 Kling O3 에코시스템

Kling Image O3 Edit은 WaveSpeedAI에서 Kuaishou의 확장되는 O3 모델 패밀리의 일부입니다. Kling Image O3 Text-to-Image로 기본 이미지를 생성하고, O3 Edit으로 합성하고 다듬은 다음, Kling Video O3 Pro Image-to-Video로 결과물에 생명을 불어넣으세요. 이것들을 합치면 텍스트에서 이미지, 편집된 합성물을 거쳐 동영상까지 이어지는 완전한 창작 파이프라인을 형성합니다—일관된 가격과 콜드 스타트 없이 통합 API를 통해 모두 이용 가능합니다.

지금 바로 합성을 시작하세요

Kling Image O3 Edit은 AI 기반 이미지 편집에서 가능한 것의 진정한 도약을 나타냅니다. 이 수준의 품질로 이루어지는 다중 참조 합성—캐릭터 정체성 보존, 네이티브 4K 출력, 자연어 제어—은 이전에는 존재하지 않았던 창작 워크플로를 열어줍니다. 창의적인 도구를 구축하든, 콘텐츠 생산을 확장하든, 새로운 형태의 시각적 스토리텔링을 탐구하든, O3 Edit은 어떤 시각적 요소 세트든 마음속에 그리는 정확한 이미지로 결합할 수 있는 실용적인 방법을 제공합니다.

WaveSpeedAI에서 Kling Image O3 Edit 사용해보기 →