Alibaba WAN 2.7 Reference To VideoがWaveSpeedAIに登場

Wan 2.7 Reference-to-Video：複数のリファレンスからキャラクター一貫性のあるAI動画を生成

AI生成動画クリップ間でキャラクターのアイデンティティを維持することは、生成動画における最も難しい問題の一つでした。しかし今、それが解決されました。AlibbaのTongyi Labが開発したWan 2.7 Reference-to-Videoは、複数のリファレンス動画と画像を入力として受け取り、キャラクター・小道具・ビジュアルスタイルが完全に一貫した新しいシーンを生成します。WaveSpeedAIでコールドスタートなし・手頃な従量課金制で利用可能なこのモデルは、シンプルなREST APIを通じてプロダクション品質のマルチキャラクター動画生成を実現します。

複雑なシーンを事前視覚化する映像作家、スポークスパーソンキャンペーンを制作するブランド、マルチショットのナラティブを構築するコンテンツクリエイターなど、あらゆる用途において、Wan 2.7 Reference-to-VideoはAI動画ワークフローを悩ませてきた一貫性の問題を解消します。

Wan 2.7 Reference-to-Videoの仕組み

Wan 2.7 Reference-to-Videoは、AlibbaのDiffusion Transformer（DiT）アーキテクチャとFull Attentionメカニズムを基盤としており、動画シーケンス全体にわたる空間的・時間的関係を同時に処理します。クリップ全体を通じてキャラクターのアイデンティティが安定している理由はここにあります——モデルはフレームごとに生成するのではなく、シーケンス全体を一度に理解します。

ワークフローはシンプルです：

リファレンス動画をアップロード — 保持したいキャラクターや視覚的要素を含む1本以上のソース動画を提供します。
オプションのリファレンス画像を追加 — 追加の視覚的ガイダンスとして静止画像を補完します。
プロンプトを記述 — 自然言語で新しいシーンを説明し、キャラクターを位置で参照します（例：「Video 1のキャラクターが庭を歩き、Video 2はベンチから見ている」）。
生成 — モデルが、参照したキャラクターを説明したシーンに配置し、アイデンティティ・スタイル・一貫したモーションを保持した新しい動画を生成します。

このモデルは最大5つの組み合わせリファレンス入力（動画と画像を合わせて）をサポートし、720pまたは1080pの解像度、16:9を含むアスペクト比、5秒・10秒・15秒のクリップ長を出力できます。独自のプロンプトインデックスシステムにより、どのリファレンスがどこに現れるかを正確にコントロールできます——動画は最初に番号付け（Video 1、Video 2）され、画像がシーケンスを引き継ぎます（Image 3、Image 4）。

Wan 2.7 Reference-to-Videoの主な機能

マルチ動画リファレンスサポート — 複数のソース動画からキャラクター・オブジェクト・視覚的要素を1つの一貫したシーンに組み合わせます。このクラスの他のモデルは、マルチソース動画リファレンスをこれほどクリーンに扱えません。
アイデンティティロックされたキャラクター一貫性 — Full Attentionアーキテクチャにより、古い拡散ベースの動画モデルに見られるアイデンティティドリフトなしに、生成クリップ全体を通じて顔の特徴・衣装・体のプロポーション・スタイルの詳細が保持されます。
精密なコントロールのためのプロンプトインデックス — プロンプト内で「Video 1」「Video 2」「Image 3」の構文を使って特定のキャラクターを参照できます。これにより、生成シーンで誰が何をするかを監督レベルでコントロールできます。
ネガティブプロンプトサポート — 出力から除外する要素を指定し、リファレンスソース間の意図しない視覚的ブレンドを防ぎます。
自動プロンプト拡張 — プロンプト拡張を有効にすると、モデルが短いプロンプトに追加の詳細を補完し、手動のプロンプトエンジニアリングなしにより豊かな出力を生成します。
1080p出力 — プロダクション対応の結果のためフルHD解像度で生成するか、クリエイティブプロセスのより速い反復のために720pを使用します。
クリップあたり最大15秒 — キャラクターが移動・インタラクション・表現する時間を確保した長いシーンを生成——ソーシャルメディアのショートやコマーシャルカットに十分な長さです。

Wan 2.7 Reference-to-Videoのベストユースケース

マルチキャラクターのストーリーテリングと短編映画

別々のリファレンス動画のキャラクターを、実際には一緒に撮影したことのない共有シーンに配置します。映像作家は俳優を個別に撮影し、Wan 2.7 R2Vを使ってインタラクションシーンを生成できます——キャラクターが一緒に座ったり、並んで歩いたり、新しい環境で会話したりする場面を。これはインディープロジェクトのプリビジュアライゼーションにおける制作コストを劇的に削減します。

ブランドスポークスパーソン動画キャンペーン

マーケティングチームは、一貫したブランドスポークスパーソンやマスコットをフィーチャーした数十ものオンブランド動画バリエーションを生成できます。ブランドキャラクターのリファレンス動画を一度アップロードし、キャンペーン全体を通じて完璧なビジュアルアイデンティティを維持しながら、さまざまな設定（キッチン、オフィス、屋外）での映像を生成します。再撮影は不要です。

スケールでのソーシャルメディアコンテンツ

コンテンツクリエイターは、大量のキャラクター一貫性のある短尺動画を制作できます。繰り返し登場するキャラクターやペルソナのリファレンス動画を使い、新しいシナリオを説明して毎日新鮮なコンテンツを生成します。アイデンティティ保持により、あらゆる投稿でオーディエンスがキャラクターを認識し、制作オーバーヘッドなしにブランドの一貫性を構築します。

製品デモと説明動画

プレゼンターのリファレンス動画と製品画像を組み合わせて、洗練されたデモ動画を生成します。プレゼンターは外見とスタイルを維持しながら、新しいコンテキストで製品とインタラクションします——Eコマースのリスティング、製品ローンチ、チュートリアルコンテンツに最適です。

クリエイティブコンセプトとストーリーボーディング

ディレクターとクリエイティブチームは、本格的な制作にコミットする前に、マルチキャラクターシーンを素早くプロトタイプ化できます。異なるステージング・照明・キャラクターインタラクションで、数分以内にシーンの10バリエーションを生成します。素早い反復には720pを使用し、採用するコンセプトを1080pでレンダリングします。

ファンコンテンツとキャラクタークロスオーバー

異なるソースからの視覚的要素を1つの一貫したシーンに組み合わせます。異なるリファレンス動画のキャラクターが自然にインタラクションでき、ファンアート・マッシュアップ・実験的なビジュアルストーリーテリングのクリエイティブな可能性が広がります。

トレーニングと教育コンテンツ

複数のレッスンにわたって一貫したインストラクター主導の動画コンテンツを生成します。インストラクターのリファレンスを一度アップロードし、コース全体を通じてビジュアルの連続性を維持しながら、さまざまな教育的設定（ホワイトボード前、ラボ内、フィールド）での映像を制作します。

Wan 2.7 Reference-to-Videoの価格とAPIアクセス

WaveSpeedAIは、Wan 2.7 Reference-to-Videoをわかりやすい生成ごとの価格で提供しています：

長さ	720p	1080p
5秒	$1.00	$1.60
10秒	$1.50	$2.40
15秒	$2.00	$3.20

1080pレンダリングは720p料金の1.6倍です。価格にはリファレンス動画処理の固定オーバーヘッドが含まれます。

始めるまで数分しかかかりません。WaveSpeed SDKをインストールして最初のAPI呼び出しを行います：

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "The character in Video 1 walks through a sunlit garden, smiling and looking at the flowers",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAIはWan 2.7 Reference-to-Videoをコールドスタートなしで実行します——最初のリクエストは100回目と同じ速さです。GPUプロビジョニングの遅延なし、アイドルコンピュート料金なし。生成した分だけお支払いください。

Wan 2.7 Reference-to-Videoを今すぐ試す →

Wan 2.7 Reference-to-Videoで最良の結果を得るためのヒント

明確で区別しやすいリファレンス動画を使用する。 各リファレンス動画が視覚的に区別しやすいほど、モデルは出力内で各キャラクターのアイデンティティをより良く保持します。見た目が似ているリファレンスは避けてください。
プロンプト内でキャラクターをインデックスで参照する。 どのキャラクターが何をするかを指定するために、常に「Video 1」「Video 2」などを使用してください。番号付けは動画のアップロード順に従い、リファレンス画像へと続きます。
反復には720pから始める。 1080pの最終レンダリングにコミットする前に、720pでシーンの構成・プロンプトの表現・キャラクターの配置をテストします。時間とコストの両方を節約できます。
ネガティブプロンプトを使ってブレンドを防ぐ。 リファレンスソース間でビジュアルスタイルが混在していることに気づいた場合は、特定の不要な要素を除外するネガティブプロンプトを追加してください。
短いプロンプトにはプロンプト拡張を有効にする。 プロンプトが簡潔またはシーンの詳細が不足している場合、プロンプト拡張をオンにすることでモデルが自動的に映画的な詳細を補完します。
リファレンス動画は短く焦点を絞る。 保持したい被写体を明確にフィーチャーしたリファレンスクリップは、長くバリエーションのある映像よりも優れたアイデンティティ一貫性を生み出します。

Wan 2.7 Reference-to-Videoに関するよくある質問

Wan 2.7 Reference-to-Videoとは何ですか？

Wan 2.7 Reference-to-Videoは、リファレンス動画と画像に含まれるキャラクターのアイデンティティ・外見・スタイルを保持しながら新しい動画シーンを生成する、AlibbaのAI動画生成モデルです。

Wan 2.7 Reference-to-Videoの料金はいくらですか？

価格は720pで5秒クリップあたり$1.00から始まり、15秒の1080p動画では$3.20まで上がります。サブスクリプション料金はありません——WaveSpeedAIでは生成ごとにお支払いください。

Wan 2.7 Reference-to-VideoはAPI経由で使用できますか？

はい。Wan 2.7 Reference-to-VideoはWaveSpeedAI上でREST APIとして利用可能で、コールドスタートなし、従量課金制、簡単な統合のためのWaveSpeed Python SDKを備えています。

一度に何本のリファレンス動画を使用できますか？

最大5つの組み合わせリファレンス入力（動画と画像を合わせて）を提供できます。各リファレンスは、どのキャラクターがどこに現れるかを精密にコントロールするために、プロンプト内で順番に番号付けされます。

Wan 2.7 Reference-to-VideoとWan 2.7 Image-to-Videoの違いは何ですか？

Wan 2.7 Image-to-Videoは単一のリファレンス画像を動画にアニメーション化します。Reference-to-Videoは複数の動画リファレンスを受け取り、ソース間でアイデンティティを保持して、一貫したアイデンティティを持つマルチキャラクターシーンを実現します——プロダクションワークフローにとって根本的に異なる機能です。

Wan 2.7でキャラクター一貫性のある動画の制作を始めよう

Wan 2.7 Reference-to-Videoは、AI動画生成においてこれまで不可能だった機能をもたらします：動画リファレンスからの信頼性の高いマルチキャラクターアイデンティティ保持です。WaveSpeedAIのインスタント推論とシンプルなAPIと組み合わせることで、今日からプロダクションワークフローに対応しています。

WaveSpeedAI上のWan 2.7フルスイートを探索してください——Text-to-Video、Image-to-Video、Video Edit、Video Extendを含みます。

WaveSpeedAIでWan 2.7 Reference-to-Videoを試す →