Kuaishou Kling Video O3 StdがWaveSpeedAIに登場
Kling Omni Video O3(Standard)のReference-to-Videoは、キャラクター、小道具、またはシーンの参照を使用して、複数の視点からクリエイティブな動画を生成します。被写体を抽出し
Kling Video O3 Standard Reference-to-VideoがWaveSpeedAIに登場
AIビデオ生成において、キャラクターの一貫性は最も難しい課題でした。美しい5秒のクリップを生成できても、同じキャラクターを新しいシーンに配置しようとした瞬間、顔がぶれ、衣装が変わり、連続性が崩れてしまう。Kling Video O3 Standard Reference-to-Videoはこの問題をスケールで解決し、今WaveSpeedAIで利用可能になりました。
2026年初頭のAIビデオランキングでKling 3.0をトップに押し上げた基盤と同じ、Kuaishouの第三世代Omniアーキテクチャ上に構築されたこのモデルは、特定の人物・物体・シーンのリファレンス画像をアップロードし、それらの被写体が最初のフレームから最後まで視覚的に一貫した全く新しいビデオコンテンツを生成することを可能にします。
Kling Video O3 Standard Reference-to-Videoとは?
Reference-to-Videoは、KuaishouのKling O3統合アーキテクチャ内における専門的な生成モードです。ゼロからコンテンツを生成する標準的なテキスト→ビデオやimage-to-videoモデルとは異なり、Reference-to-Videoはソース画像からアイデンティティ特徴——顔の構造、衣服、体のプロポーション、特徴的なアクセサリー——を抽出し、生成中の制約としてロックします。
その結果:自然言語で新しいシーンを記述すると、参照した被写体が指定したアクションを行い、これまで撮影されたことのない環境で、あるべき姿のままビデオに登場します。
このモデルはリファレンスビデオなしで生成する場合、最大7枚のリファレンス画像をサポートし、複数のアングルから被写体を捉えることでより強力なアイデンティティ保持を実現します。モーションガイダンスやスタイル転送のためにオプションのリファレンスビデオを提供することも可能で、そのモードでは最大4枚のリファレンス画像をサポートします。
O3世代がO1の前世代と一線を画すのは、チェーン・オブ・ソート推論と組み合わせた基盤となる3D時空間ジョイントアテンションメカニズムです。1フレームもレンダリングする前に、モデルはプロンプトを構造化されたステップで推論し——空間的関係を理解し、モーション軌跡を予測し、被写体がシーン内でどのように相互作用すべきかを計画します。これにより、前世代よりも大幅に自然で物理的に整合性のある結果が生まれます。
主な機能
- マルチリファレンス・アイデンティティロック:同じキャラクターの複数のアングル(正面、側面、斜め)の画像をアップロードし、生成された全フレームにわたって持続する強固なアイデンティティプロファイルを構築
- マルチサブジェクト合成:異なるキャラクター、小道具、要素のリファレンスを一つのシーンで組み合わせ——プロンプトで「Figure 1」「Figure 2」の表記を使って誰が何をするかを指示
- オプションのリファレンスビデオ:モーションガイダンス、スタイル転送、またはシーンの連続性のためにビデオクリップを提供し、出力品質をさらに向上
- 同期音声生成:環境効果音やアンビエント音声を生成、またはリファレンスビデオのオリジナル音声を維持
- 柔軟な尺(3〜15秒):3秒の短いテストから15秒の拡張ナラティブシーケンスまで任意の長さを選択
- 複数のアスペクト比:16:9、9:16、1:1などのフォーマットで出力し、ターゲットプラットフォームに対応
- 約90%の顔の一貫性:独立したテストにより、Kling O3は同じキャラクターを異なる環境に配置する際に約90%の顔の構造精度を維持することが確認されています
実際のユースケース
ブランド・マーケティングキャンペーン
一度の商品撮影をビデオキャンペーン全体に転換します。ブランドアンバサダーやスポークスパーソンのリファレンス画像をアップロードし、オフィスでのプレゼンテーション、カジュアルなアウトドアシーン、ダイナミックな商品デモンストレーションなど、異なるシナリオを記述して、全シナリオにわたって一貫したビデオコンテンツを生成します。アイデンティティロックにより、スポークスパーソンの外見が役員室にいても浜辺にいても同じになることが保証されます。
シリアルソーシャルメディアコンテンツ
撮影のたびに俳優をセットに呼ぶことなく、TikTok・Instagram Reels・YouTube Shortsのリカーリングキャラクターを構築します。少数のリファレンス画像でキャラクターのビジュアルアイデンティティを確立し、新しいエピソード、リアクション、シナリオをオンデマンドで生成します。9:16のアスペクト比サポートと短尺オプションは、このワークフローのために特別に設計されています。
ECショッピング商品動画
商品をライフスタイルのコンテキストに大量に配置します。複数のアングルから商品のリファレンス画像をアップロードし、モダンなキッチン、屋外パティオ、ミニマリストなスタジオセットアップなど様々な環境で商品を映したビデオを生成——すべて実際の商品への完璧な視覚的忠実性を維持しながら。これはビデオリストを評価するマーケットプレイスで特に価値があります。
迅速なクリエイティブコンセプト立案
複数のキャラクターリファレンスを新しいシナリオに組み合わせて、絵コンテ作成やアイデア出しに活用します。本格的な制作にコミットする前に、様々な環境で異なるキャラクターがどのように相互作用するかをテストします。3〜5秒のショートクリップで素早くイテレーションし、方向性が定まったら10〜15秒に拡張します。
スタイル転送とモーションガイダンス
リファレンスビデオを提供して新しいコンテンツのモーションダイナミクスと視覚スタイルをガイドします。これは確立されたAesthetics(美的感覚)に合わせたり、自分のキャラクターで特定のカメラ動きを再現したりするのに特に役立ちます。
WaveSpeedAIではじめる
-
リファレンス画像を準備する:複数のアングルから被写体の鮮明で高解像度の画像を集めます。正面、側面、斜めビューが最も強いアイデンティティロックを生みます。顔が明確で特徴的な特徴があるリファレンス画像が最も強い一貫性をもたらします。
-
モデルに移動する:WaveSpeedAIのKling Video O3 Standard Reference-to-Videoにアクセスします。
-
プロンプトを書く:「Figure 1」「Figure 2」の表記を使ってアップロードした画像を参照しながらシーンを記述します。例:「Figure 1の女性が夜のネオン輝く街路を歩き、感嘆しながら空に目を向けています。」
-
出力設定を構成する:アスペクト比(横長は16:9、縦長は9:16、正方形は1:1)を選択し、尺(3〜15秒)を設定し、音声生成を有効にするかどうかを選択します。
-
リファレンスビデオを追加する(オプション):特定の動きのダイナミクスに合わせたい場合は、モーションまたはスタイルガイダンスのためにビデオクリップをアップロードします。
-
生成する:リクエストを送信し、結果をダウンロードします。
料金
リファレンスビデオなし:
| 尺 | 音声オフ | 音声オン |
|---|---|---|
| 3秒 | $0.504 | $0.672 |
| 5秒 | $0.84 | $1.12 |
| 10秒 | $1.68 | $2.24 |
| 15秒 | $2.52 | $3.36 |
リファレンスビデオあり:
| 尺 | 料金 |
|---|---|
| 3秒 | $1.512 |
| 5秒 | $2.52 |
| 10秒 | $5.04 |
| 15秒 | $7.56 |
課金は透明で生成ごとの支払い——サブスクリプションなし、クレジットパックなし、隠れた料金なし。
プロのヒント
- 最も強いアイデンティティロックには、異なるアングルから2〜4枚のリファレンス画像を使用する
- 長いシーケンスを生成する前に、3〜5秒の短いクリップでキャラクターの一貫性を検証することから始める
- リファレンスビデオを追加するとコストが3倍になりますが、モーション品質が大幅に向上します——モーション忠実性が最も重要な場合に使用する
- ターゲットプラットフォームに合わせてアスペクト比を選択:YouTubeは16:9、TikTokとReelsは9:16、Instagramフィードは1:1
なぜWaveSpeedAIなのか?
- コールドスタートなし:モデルは常にウォーム状態で準備完了——すべてのリクエストで即座に生成開始
- シンプルなREST API:複雑なSDKセットアップなしの簡単なインテグレーション
- 手頃で透明な料金:明確で予測可能なコストで生成ごとに支払い
- 完全なKling O3エコシステム:O3 Pro Reference-to-Video、O3 Standard Image-to-Video、O3 Standard Text-to-Videoを含む完全なスイートにアクセス
今日から一貫性のあるキャラクターの構築を始めよう
キャラクターの一貫性がボトルネックでした。Kling Video O3 Standard Reference-to-Videoがそれを取り除きます。リカーリングスポークスパーソンを使ったブランドキャンペーンの構築、AIキャラクターによるシリアルソーシャルコンテンツの制作、あるいは制作のためのナラティブシーケンスのプロトタイピングなど、このモデルはマルチシーンAIビデオを実用的にするアイデンティティの安定性を提供します。
2026年のトップAIビデオモデルとしてランクされたKling 3.0により、Reference-to-Videoは一貫性が最も重要なワークフローのために特化されたその同じアーキテクチャパワーへのアクセスを提供します。
WaveSpeedAIでKling Video O3 Standard Reference-to-Videoを試す——高速推論、ゼロコールドスタート、実験を手軽にする料金で、今日からキャラクター一貫性のあるビデオの生成を始めましょう。





