Memperkenalkan Kuaishou Kling Image O3 Edit di WaveSpeedAI

Memperkenalkan Kling Image O3 Edit: Komposisi Gambar Multi-Referensi yang Didukung Arsitektur Omni Kuaishou

Kesenjangan antara apa yang bisa dibuat oleh generator gambar AI dan apa yang bisa diedit terus menyempit dengan cepat. Namun compositing—menggabungkan elemen dari beberapa gambar sumber secara cerdas menjadi satu adegan yang koheren—tetap menjadi salah satu masalah tersulit di bidang ini. Kling Image O3 Edit dari Kuaishou menutup kesenjangan tersebut dengan model yang dirancang khusus untuk komposisi dan pengeditan gambar multi-referensi, didukung oleh arsitektur O3 (Omni 3) dan mampu menghasilkan output hingga resolusi 4K. Kini tersedia di WaveSpeedAI.

Apa itu Kling Image O3 Edit?

Kling Image O3 Edit adalah model pengeditan gambar terbaru dari Kuaishou, dibangun di atas arsitektur O3—fondasi multimodal terpadu yang sama yang mendukung model generasi video dan gambar terdepan dari Kling. Sementara model pengeditan Kling sebelumnya bekerja dengan satu gambar referensi, O3 Edit menerima hingga 10 gambar referensi secara bersamaan, memungkinkan kategori alur kerja kreatif yang sepenuhnya baru.

Unggah sekumpulan foto yang berisi orang, objek, gaya, atau lingkungan yang ingin Anda kombinasikan, lalu deskripsikan dalam bahasa alami bagaimana semuanya harus digabungkan. Model ini menginterpretasikan instruksi Anda, memadukan elemen dari setiap referensi, dan menghasilkan gambar baru yang menghormati identitas, pencahayaan, dan gaya materi sumber Anda. Tidak perlu masking manual, tidak perlu manajemen layer, tidak perlu keahlian Photoshop.

Di balik layar, arsitektur O3 memperkenalkan proses penalaran Visual Chain-of-Thought (vCoT)—dipinjam dari cara model bahasa besar “berpikir selangkah demi selangkah.” Sebelum merender satu piksel pun, model melakukan dekomposisi adegan implisit dan penalaran kausal, merencanakan cara mengatur subjek, menyelesaikan konflik pencahayaan antar referensi, dan menangani oklusi. Inilah mengapa Kling Image O3 Edit menghasilkan komposisi yang terasa disengaja alih-alih ditempel begitu saja, bahkan saat menggabungkan elemen dari foto sumber yang sangat berbeda.

Fitur Utama

Komposisi Multi-Referensi (Hingga 10 Gambar): Masukkan hingga 10 gambar referensi ke dalam model dan rujuk berdasarkan nomor dalam prompt Anda—“Buat orang di gambar 1 mengenakan pakaian dari gambar 3, berdiri di lingkungan dari gambar 5.” Model ini mempertahankan identitas dan gaya yang berbeda dari setiap referensi.
Pengeditan Berbasis Teks: Semua pengeditan dikendalikan oleh bahasa alami. Deskripsikan apa yang Anda inginkan secara percakapan, dan model menentukan cara mengeksekusinya. Komposisi kompleks yang biasanya membutuhkan waktu berjam-jam dalam perangkat lunak pengeditan tradisional menjadi cukup satu kalimat.
Resolusi 4K Native: Hasilkan gambar pada resolusi 1K, 2K, atau 4K langsung dari pipeline inferensi. Output 4K menghasilkan mikro-tekstur yang akurat secara fisik—pori-pori kulit, anyaman kain, permukaan material—pada tingkat yang cocok untuk cetak komersial dan tampilan format besar.
Rasio Aspek Fleksibel: Deteksi otomatis berdasarkan referensi Anda, atau pilih manual dari 1:1, 3:4, 4:3, 9:16, 16:9, dan lainnya. Sesuaikan output untuk platform atau format apa pun tanpa perlu memotong setelahnya.
Generasi Batch: Hasilkan beberapa variasi dari satu permintaan. Kirimkan satu prompt komposisi dan terima beberapa interpretasi untuk dibandingkan, sehingga Anda dapat mengeksplorasi arah kreatif tanpa panggilan API berulang.
Pelestarian Identitas Karakter: Berkat teknologi rekonstruksi 3D canggih dari arsitektur O3, wajah dan fitur karakter tetap setia pada gambar referensinya bahkan ketika ditempatkan dalam konteks, pose, atau kondisi pencahayaan yang sepenuhnya baru.

Kasus Penggunaan di Dunia Nyata

Komposisi Karakter dan Konten Media Sosial

Kemampuan paling menonjol dari O3 Edit adalah menggabungkan orang-orang dari foto terpisah ke dalam satu adegan bersama. Tempatkan teman-teman yang belum pernah bertemu secara berdampingan, buat foto grup dari potret individual, atau hasilkan skenario imajinatif yang menampilkan orang-orang dari konteks berbeda. Para kreator konten dapat menghasilkan postingan media sosial yang menarik yang secara fisik tidak mungkin difoto.

Pemasaran dan Periklanan

Tim kreatif dapat mengomposisikan produk dengan model, lingkungan, dan elemen gaya hidup yang bersumber dari pemotretan berbeda. Bangun visual kampanye yang menggabungkan produk Anda, lokasi tertentu, dan model tertentu—masing-masing dari perpustakaan foto terpisah—menjadi satu adegan yang dipoles. Dengan harga $0,028 per gambar pada resolusi standar, mengulang lusinan variasi komposisi harganya lebih murah dari satu lisensi foto stok.

Transfer Gaya dan Perpaduan Kreatif

Unggah gambar referensi gaya bersama referensi konten untuk menghasilkan gambar yang memadukan estetika visual dari satu sumber dengan subjek dari sumber lain. Ubah foto produk menjadi gaya lukisan cat air, terapkan palet warna matahari terbenam pada potret, atau gabungkan referensi artistik menjadi sesuatu yang sepenuhnya baru.

E-Commerce dan Visualisasi Produk

Hasilkan gambar produk-dalam-konteks secara massal tanpa pemotretan fisik. Gabungkan gambar produk dengan berbagai lingkungan latar belakang, item pelengkap, atau adegan gaya hidup. Sebuah perusahaan furnitur dapat menempatkan sofa mereka di puluhan pengaturan ruangan yang berbeda, masing-masing dari foto referensi yang berbeda, menghasilkan imagery gaya hidup senilai seluruh katalog hanya dari segelintir gambar sumber.

Storyboard dan Desain Naratif

Pertahankan karakter yang konsisten di seluruh rangkaian adegan dengan menggunakan gambar referensi yang sama dengan prompt berbeda. Pelestarian identitas O3 Edit memastikan karakter terlihat sama baik di adegan pertama maupun adegan ke-dua puluh, sehingga praktis untuk pembuatan komik, storyboard, dan karya naratif visual.

Memulai di WaveSpeedAI

WaveSpeedAI menghadirkan Kling Image O3 Edit dengan keunggulan infrastruktur yang dibutuhkan alur kerja produksi:

Tanpa Cold Start: Setiap permintaan langsung dieksekusi. Tidak ada penundaan pemuatan model, tidak ada antrian—hanya inferensi instan, yang penting saat Anda melakukan iterasi secara real time atau melayani pengguna akhir yang mengharapkan hasil segera.

Inferensi Cepat: Infrastruktur teroptimasi WaveSpeedAI menjaga alur kerja komposisi dan pengeditan tetap responsif, bahkan pada resolusi 4K.

Harga Terjangkau: Gambar standar dan 2K hanya $0,028 per gambar. Gambar 4K seharga $0,056 per gambar. Hasilkan 100 komposisi berkualitas profesional dengan kurang dari $3 pada resolusi standar.

Mulai Cepat dengan API

import wavespeed

output = wavespeed.run(
    "kwaivgi/kling-image-o3/edit",
    {
        "prompt": "Have the person in picture 1 and the person in picture 2 take a selfie together in a coffee shop",
        "images": [
            "https://example.com/person1.png",
            "https://example.com/person2.png",
        ],
    },
)

print(output["outputs"][0])

Tips untuk Hasil Terbaik

Rujuk gambar tertentu berdasarkan nomor dalam prompt Anda. “Orang di gambar 1 mengenakan pakaian dari gambar 3” jauh lebih efektif daripada deskripsi yang tidak jelas.
Gunakan gambar referensi berkualitas tinggi dengan pencahayaan baik. Subjek yang jelas dengan pencahayaan yang bagus menghasilkan komposisi terbaik. Model mempertahankan apa yang sudah ada di referensi Anda, jadi kualitas input menentukan kualitas output.
Hasilkan beberapa variasi dengan mengatur num_images di atas 1 untuk mengeksplorasi berbagai interpretasi komposisi Anda.
Pilih resolusi dengan sengaja. Gunakan 1K atau 2K untuk iterasi cepat dan pratinjau, lalu beralih ke 4K untuk output final saat Anda membutuhkan detail kualitas cetak.
Rasio aspek otomatis bekerja dengan baik ketika referensi Anda memiliki proporsi yang serupa. Beralih ke pemilihan manual saat menargetkan platform tertentu seperti Instagram Stories (9:16) atau thumbnail YouTube (16:9).

Ekosistem Kling O3 di WaveSpeedAI

Kling Image O3 Edit adalah bagian dari keluarga model O3 Kuaishou yang terus berkembang di WaveSpeedAI. Hasilkan gambar dasar dengan Kling Image O3 Text-to-Image, komposisikan dan sempurnakan dengan O3 Edit, lalu hidupkan hasil Anda dengan Kling Video O3 Pro Image-to-Video. Bersama-sama, mereka membentuk pipeline kreatif yang lengkap—teks ke gambar, ke komposit yang diedit, ke video—semuanya melalui API terpadu dengan harga yang konsisten dan tanpa cold start.

Mulai Mengomposisikan Hari Ini

Kling Image O3 Edit mewakili lompatan nyata dalam apa yang mungkin dilakukan dengan pengeditan gambar berbasis AI. Komposisi multi-referensi pada tingkat kualitas ini—dengan pelestarian identitas karakter, output 4K native, dan kontrol bahasa alami—membuka alur kerja kreatif yang sebelumnya tidak ada. Apakah Anda sedang membangun alat kreatif, menskalakan produksi konten, atau mengeksplorasi bentuk baru penceritaan visual, O3 Edit memberi Anda cara praktis untuk menggabungkan sekumpulan elemen visual apa pun menjadi tepat gambar yang Anda bayangkan.

Coba Kling Image O3 Edit di WaveSpeedAI →