← ブログ

Kuaishou Kling Image O3 EditがWaveSpeedAIに登場

Kling O3 Editは、4K解像度とマルチ画像参照をサポートするAI画像編集モデルで、複数の参照画像を使った高品質な変換を実現します。

1 min read
Kwaivgi Kling Image O3 Edit
Kwaivgi Kling Image O3 Edit Kling O3 Editは、4K解像度とマルチ画像参照をサポートするAI画像編集モデルで、複数の参照画像を使った高品質...
Try it
Kuaishou Kling Image O3 EditがWaveSpeedAIに登場

Kling Image O3 Edit 登場:Kuaishouのオムニアーキテクチャが実現するマルチリファレンス画像合成

AIイメージジェネレーターが「生成できるもの」と「編集できるもの」のギャップは急速に縮まっています。しかし、複数のソース画像から要素をインテリジェントに組み合わせて一つのまとまりのあるシーンを作る「コンポジティング」は、この分野で最も難しい課題の一つであり続けていました。KuaishouのKling Image O3 Editは、O3(Omni 3)アーキテクチャを搭載し、最大4K解像度での出力に対応した、マルチリファレンス画像合成・編集専用モデルでこのギャップを埋めます。現在WaveSpeedAIで利用可能です。

Kling Image O3 Editとは?

Kling Image O3 Editは、KuaishouによるO3アーキテクチャ上に構築された最新の画像編集モデルです。O3は、Klingのトップクラスの動画・画像生成モデルを支える統合マルチモーダル基盤と同じものです。従来のKling編集モデルが単一のリファレンス画像で動作していたのに対し、O3 Editは最大10枚のリファレンス画像を同時に受け付け、まったく新しいカテゴリのクリエイティブワークフローを可能にします。

組み合わせたい人物、オブジェクト、スタイル、環境を含む写真セットをアップロードし、それらをどのように組み合わせるかを自然言語で説明するだけです。モデルは指示を解釈し、各リファレンスから要素を融合させ、ソース素材のアイデンティティ・ライティング・スタイルを尊重した新しい画像を生成します。手動マスキングも、レイヤー管理も、Photoshopの専門知識も不要です。

内部では、O3アーキテクチャが**Visual Chain-of-Thought(vCoT)**推論プロセスを導入しています。これは大規模言語モデルが「ステップごとに考える」方法から着想を得たものです。1ピクセルをレンダリングする前に、モデルは暗黙的なシーン分解と因果推論を実行し、被写体の配置、リファレンス間のライティングの矛盾の解決、オクルージョンの処理を計画します。これにより、Kling Image O3 Editは、大きく異なるソース写真の要素を組み合わせる場合でも、貼り合わせたような印象ではなく、意図的に設計されたコンポジションを生み出します。

主な機能

  • マルチリファレンス合成(最大10枚): 最大10枚のリファレンス画像をモデルに入力し、プロンプト内で番号を使って参照できます。「写真1の人物が写真3の衣装を着て、写真5の環境に立っている状態にしてください。」各リファレンスから個別のアイデンティティとスタイルが維持されます。

  • テキストガイド編集: すべての編集は自然言語で行います。求めるものを会話的に説明すると、モデルが実行方法を判断します。従来の編集ソフトで数時間かかる複雑なコンポジションが、一文に集約されます。

  • ネイティブ4K解像度: 推論パイプラインから直接1K、2K、または4K解像度で画像を生成します。4K出力は、商業印刷や大型ディスプレイに適したレベルの物理的に正確なマイクロテクスチャ(肌の毛穴、布の織り目、素材の表面)を実現します。

  • 柔軟なアスペクト比: リファレンスに基づいて自動検出するか、1:1、3:4、4:3、9:16、16:9などから手動で選択できます。後でトリミングすることなく、あらゆるプラットフォームやフォーマットに対応した出力を生成できます。

  • バッチ生成: 1回のリクエストから複数のバリエーションを生成します。1つのコンポジションプロンプトを送信すると、比較のための複数の解釈が返され、APIを繰り返し呼び出すことなくクリエイティブな方向性を探索できます。

  • キャラクターのアイデンティティ保持: O3アーキテクチャの高度な3D再構成技術により、顔やキャラクターの特徴は、まったく新しいコンテキスト、ポーズ、ライティング条件に置かれても、リファレンス画像に忠実であり続けます。

実際の活用事例

キャラクター合成とソーシャルコンテンツ

O3 Editの最も際立った機能は、別々の写真に写る人物を一つのシーンに組み合わせることです。実際に会ったことのない友人を並べたり、個人のポートレートからグループ写真を作成したり、異なるコンテキストの人物が登場する想像上のシナリオを生成したりできます。コンテンツクリエイターは、実際には撮影不可能なソーシャルメディア投稿を制作できます。

マーケティングと広告

クリエイティブチームは、異なる撮影から得たモデル、環境、ライフスタイル要素を商品に組み合わせることができます。商品、特定のロケーション、特定のモデルを、それぞれ別々のフォトライブラリから組み合わせたキャンペーンビジュアルを構築し、一つの磨かれたシーンに仕上げます。標準解像度で1枚あたり$0.028なら、何十ものコンポジションバリエーションを試しても、ストックフォト1枚のライセンス料より安く済みます。

スタイルトランスファーとクリエイティブミックス

スタイルリファレンス画像とコンテンツリファレンスを一緒にアップロードし、あるソースのビジュアルな美しさを別のソースの被写体に融合させた画像を生成できます。商品写真を水彩画のスタイルに変換したり、夕日のカラーパレットをポートレートに適用したり、アーティスティックなリファレンスをまったく新しいものに統合したりできます。

ECと商品ビジュアライゼーション

実際の撮影なしに、商品のコンテキスト内画像を大規模に生成します。商品画像をさまざまな背景環境、補完的なアイテム、またはライフスタイルシーンと組み合わせます。家具会社は、ソファを何十種類もの異なる部屋の設定に配置でき、それぞれが異なるリファレンス写真から生成されることで、少数のソース画像からカタログ全体分のライフスタイル画像を生成できます。

ストーリーボードとナラティブデザイン

同じリファレンス画像を異なるプロンプトと組み合わせることで、一連のシーンにわたって一貫したキャラクターを維持します。O3 Editのアイデンティティ保持により、キャラクターはシーン1でもシーン20でも同じように見え、コミック制作、ストーリーボード、ビジュアルナラティブ作業に実用的です。

WaveSpeedAIでの利用開始

WaveSpeedAIは、プロダクションワークフローが求めるインフラの優位性を持ってKling Image O3 Editを提供します:

コールドスタートなし: すべてのリクエストが即座に実行されます。モデルの読み込み遅延もキューイングもなく、即時推論のみ。リアルタイムで反復作業をしている場合や、即座の結果を期待するエンドユーザーにサービスを提供している場合に重要です。

高速推論: WaveSpeedAIの最適化されたインフラは、4K解像度でもコンポジションと編集ワークフローをレスポンシブに保ちます。

手頃な価格: 標準および2K画像は1枚わずか**$0.028**。4K画像は**$0.056**。標準解像度なら$3以下でプロ品質のコンポジション100枚を生成できます。

APIクイックスタート

import wavespeed

output = wavespeed.run(
    "kwaivgi/kling-image-o3/edit",
    {
        "prompt": "Have the person in picture 1 and the person in picture 2 take a selfie together in a coffee shop",
        "images": [
            "https://example.com/person1.png",
            "https://example.com/person2.png",
        ],
    },
)

print(output["outputs"][0])

最良の結果を得るためのヒント

  • プロンプトで画像を番号で指定する。「写真1の人物が写真3の衣装を着ている」は、曖昧な説明よりもはるかに効果的です。
  • 高品質で照明が適切なリファレンス画像を使用する。被写体が明確で照明が良い画像は、最良のコンポジションを生み出します。モデルはリファレンスにあるものを保持するため、入力品質が出力品質に直結します。
  • num_imagesを1より大きく設定してバリエーションを複数生成し、コンポジションの異なる解釈を探索しましょう。
  • 解像度を意識的に選択する。素早い反復やプレビューには1Kまたは2Kを使用し、印刷品質の詳細が必要な最終出力には4Kに切り替えましょう。
  • アスペクト比の自動検出は、リファレンスが似た比率を共有している場合に有効です。Instagram Stories(9:16)やYouTubeサムネイル(16:9)など、特定のプラットフォームをターゲットにする場合は手動選択に切り替えましょう。

WaveSpeedAI上のKling O3エコシステム

Kling Image O3 EditはWaveSpeedAI上のKuaishouの拡大するO3モデルファミリーの一部です。Kling Image O3 Text-to-Imageでベース画像を生成し、O3 Editで合成・調整し、Kling Video O3 Pro Image-to-Videoで結果に命を吹き込みましょう。これらはテキストから画像、編集済みコンポジット、動画までの完全なクリエイティブパイプラインを形成し、すべてが一貫した価格設定とゼロコールドスタートの統一APIで利用できます。

今すぐ合成を始めよう

Kling Image O3 Editは、AIによる画像編集で可能なことの真の飛躍を表しています。このレベルの品質でのマルチリファレンス合成—キャラクターのアイデンティティ保持、ネイティブ4K出力、自然言語コントロール—は、以前は存在しなかったクリエイティブワークフローを切り開きます。クリエイティブツールを構築する場合でも、コンテンツ制作をスケールさせる場合でも、新しいビジュアルストーリーテリングの形を探求する場合でも、O3 Editは任意のビジュアル要素のセットを思い描く通りの画像に組み合わせる実用的な手段を提供します。

WaveSpeedAIでKling Image O3 Editを試す →