Présentation de Kuaishou Kling Image O3 Edit sur WaveSpeedAI

Présentation de Kling Image O3 Edit : Composition d’images multi-référence propulsée par l’architecture Omni de Kuaishou

L’écart entre ce que les générateurs d’images IA peuvent créer et ce qu’ils peuvent modifier se réduit rapidement. Mais la composition — combiner intelligemment des éléments provenant de plusieurs images sources en une scène cohérente — est restée l’un des problèmes les plus difficiles du domaine. Kling Image O3 Edit de Kuaishou comble cet écart avec un modèle conçu spécifiquement pour la composition et l’édition d’images multi-référence, propulsé par l’architecture O3 (Omni 3) et capable de générer des résultats jusqu’en résolution 4K. Il est désormais disponible sur WaveSpeedAI.

Qu’est-ce que Kling Image O3 Edit ?

Kling Image O3 Edit est le dernier modèle d’édition d’images de Kuaishou, construit sur l’architecture O3 — la même fondation multimodale unifiée qui sous-tend les modèles de génération vidéo et image haut de gamme de Kling. Alors que les précédents modèles d’édition Kling fonctionnaient avec une seule image de référence, O3 Edit accepte jusqu’à 10 images de référence simultanément, permettant une toute nouvelle catégorie de flux de travail créatifs.

Téléchargez un ensemble de photos contenant les personnes, objets, styles ou environnements que vous souhaitez combiner, puis décrivez en langage naturel comment ils doivent s’assembler. Le modèle interprète vos instructions, mélange les éléments de chaque référence et génère une nouvelle image qui respecte l’identité, l’éclairage et le style de votre matériel source. Pas de masquage manuel, pas de gestion de calques, pas d’expertise Photoshop requise.

Sous le capot, l’architecture O3 introduit un processus de raisonnement Visual Chain-of-Thought (vCoT) — emprunté à la façon dont les grands modèles de langage « pensent étape par étape ». Avant de générer un seul pixel, le modèle effectue une décomposition implicite de la scène et un raisonnement causal, planifiant la disposition des sujets, la résolution des conflits d’éclairage entre les références et la gestion de l’occultation. C’est pourquoi Kling Image O3 Edit produit des compositions qui semblent délibérées plutôt que assemblées à la hâte, même en combinant des éléments issus de photos sources très différentes.

Fonctionnalités clés

Composition multi-référence (jusqu’à 10 images) : Fournissez au modèle jusqu’à 10 images de référence et faites-y référence par numéro dans votre prompt — « Faites porter à la personne de la photo 1 la tenue de la photo 3, debout dans l’environnement de la photo 5. » Le modèle maintient une identité et un style distincts pour chaque référence.
Édition guidée par texte : Toutes les modifications sont pilotées par le langage naturel. Décrivez ce que vous souhaitez de manière conversationnelle, et le modèle détermine comment l’exécuter. Des compositions complexes qui prendraient des heures dans un logiciel d’édition traditionnel se réduisent à une seule phrase.
Résolution native 4K : Générez des images en résolution 1K, 2K ou 4K directement depuis le pipeline d’inférence. La sortie 4K offre des micro-textures physiquement précises — pores de la peau, tissages de tissu, surfaces des matériaux — à un niveau adapté à l’impression commerciale et aux affichages grand format.
Ratios d’aspect flexibles : Détection automatique basée sur vos références, ou sélection manuelle parmi 1:1, 3:4, 4:3, 9:16, 16:9 et plus encore. Adaptez la sortie à n’importe quelle plateforme ou format sans recadrage a posteriori.
Génération par lots : Générez plusieurs variations à partir d’une seule requête. Soumettez un prompt de composition et recevez plusieurs interprétations à comparer, vous permettant d’explorer des directions créatives sans appels API répétés.
Préservation de l’identité des personnages : Grâce à la technologie avancée de reconstruction 3D de l’architecture O3, les visages et les traits des personnages restent fidèles à leurs images de référence, même lorsqu’ils sont placés dans des contextes, poses ou conditions d’éclairage entièrement nouveaux.

Cas d’utilisation concrets

Composition de personnages et contenu pour les réseaux sociaux

La capacité la plus distinctive d’O3 Edit est de combiner des personnes issues de photos séparées dans une scène partagée. Placez côte à côte des amis qui ne se sont jamais rencontrés, créez des photos de groupe à partir de portraits individuels, ou générez des scénarios imaginatifs mettant en scène des personnes issues de contextes différents. Les créateurs de contenu peuvent produire des publications sur les réseaux sociaux engageantes qui seraient physiquement impossibles à photographier.

Marketing et publicité

Les équipes créatives peuvent composer des produits avec des mannequins, des environnements et des éléments de style de vie provenant de différentes séances photo. Construisez des visuels de campagne qui combinent votre produit, un lieu spécifique et un modèle particulier — chacun provenant de bibliothèques de photos distinctes — en une seule scène soignée. À 0,028 $ par image en résolution standard, itérer sur des dizaines de variations de composition coûte moins cher qu’une seule licence de photo de stock.

Transfert de style et mashups créatifs

Téléchargez des images de référence de style aux côtés de références de contenu pour générer des images qui mélangent l’esthétique visuelle d’une source avec les sujets d’une autre. Transformez une photo de produit dans le style d’une peinture à l’aquarelle, appliquez la palette de couleurs d’un coucher de soleil à un portrait, ou fusionnez des références artistiques en quelque chose d’entièrement nouveau.

E-commerce et visualisation de produits

Générez des images de produits en contexte à grande échelle sans séances photo physiques. Combinez des images de produits avec différents environnements d’arrière-plan, des articles complémentaires ou des scènes de style de vie. Une entreprise de meubles peut placer son canapé dans des dizaines de configurations de pièces différentes, chacune à partir d’une photo de référence différente, générant l’équivalent d’un catalogue entier d’images lifestyle à partir d’une poignée d’images sources.

Storyboard et conception narrative

Maintenez des personnages cohérents à travers une séquence de scènes en utilisant les mêmes images de référence avec des prompts différents. La préservation de l’identité d’O3 Edit garantit qu’un personnage a la même apparence qu’il soit dans la scène un ou la scène vingt, ce qui le rend pratique pour la création de bandes dessinées, le storyboard et le travail narratif visuel.

Démarrage sur WaveSpeedAI

WaveSpeedAI propose Kling Image O3 Edit avec les avantages d’infrastructure que les flux de travail de production exigent :

Pas de démarrage à froid : Chaque requête s’exécute immédiatement. Pas de délais de chargement de modèle, pas de file d’attente — juste une inférence instantanée, ce qui compte lorsque vous itérez en temps réel ou servez des utilisateurs finaux qui attendent des résultats immédiats.

Inférence rapide : L’infrastructure optimisée de WaveSpeedAI maintient les flux de travail de composition et d’édition réactifs, même en résolution 4K.

Tarification abordable : Les images standard et 2K coûtent seulement 0,028 $ chacune. Les images 4K sont à 0,056 $ chacune. Générez 100 compositions de qualité professionnelle pour moins de 3 $ en résolution standard.

Démarrage rapide avec l’API

import wavespeed

output = wavespeed.run(
    "kwaivgi/kling-image-o3/edit",
    {
        "prompt": "Have the person in picture 1 and the person in picture 2 take a selfie together in a coffee shop",
        "images": [
            "https://example.com/person1.png",
            "https://example.com/person2.png",
        ],
    },
)

print(output["outputs"][0])

Conseils pour de meilleurs résultats

Référencez des images spécifiques par numéro dans votre prompt. « La personne de la photo 1 portant la tenue de la photo 3 » est bien plus efficace que des descriptions vagues.
Utilisez des images de référence de haute qualité, bien éclairées. Des sujets clairs avec un bon éclairage produisent les meilleures compositions. Le modèle préserve ce qui est déjà dans vos références, donc la qualité en entrée détermine la qualité en sortie.
Générez plusieurs variations en définissant num_images au-dessus de 1 pour explorer différentes interprétations de votre composition.
Choisissez la résolution délibérément. Utilisez 1K ou 2K pour l’itération rapide et la prévisualisation, puis passez à 4K pour votre sortie finale lorsque vous avez besoin d’un détail qualité impression.
Le ratio d’aspect automatique fonctionne bien lorsque vos références partagent des proportions similaires. Passez à la sélection manuelle lorsque vous ciblez des plateformes spécifiques comme Instagram Stories (9:16) ou les miniatures YouTube (16:9).

L’écosystème Kling O3 sur WaveSpeedAI

Kling Image O3 Edit fait partie de la famille de modèles O3 en expansion de Kuaishou sur WaveSpeedAI. Générez des images de base avec Kling Image O3 Text-to-Image, composez et affinez-les avec O3 Edit, puis donnez vie à vos résultats avec Kling Video O3 Pro Image-to-Video. Ensemble, ils forment un pipeline créatif complet — du texte à l’image, à la composition éditée, jusqu’à la vidéo — le tout via une API unifiée avec une tarification cohérente et zéro démarrage à froid.

Commencez à composer dès aujourd’hui

Kling Image O3 Edit représente un véritable bond en avant dans ce qui est possible avec l’édition d’images pilotée par IA. La composition multi-référence à ce niveau de qualité — avec préservation de l’identité des personnages, sortie native 4K et contrôle en langage naturel — ouvre des flux de travail créatifs qui n’existaient tout simplement pas auparavant. Que vous construisiez des outils créatifs, mettiez à l’échelle la production de contenu ou explorez de nouvelles formes de narration visuelle, O3 Edit vous offre un moyen pratique de combiner n’importe quel ensemble d’éléments visuels pour obtenir exactement l’image que vous avez en tête.

Essayez Kling Image O3 Edit sur WaveSpeedAI →