Alibaba WAN 2.6 Reference To Video FlashがWaveSpeedAIに登場

Alibaba WAN 2.6 Reference-to-Video FlashがWaveSpeedAIに登場

スピードと一貫性が融合。WaveSpeedAIは、Alibabaのアイデンティティ保持型動画生成モデルの高速蒸留バリアント、Alibaba WAN 2.6 Reference-to-Video Flashのリリースを発表します。reference-to-videoワークフローで作業しており、より速い結果を求めていた方に向けて作られたモデルです。生成時間のわずかな時間で、同じキャラクター一貫性とマルチショットストーリーテリングを実現します。

WAN 2.6 Reference-to-Video Flashとは？

WAN 2.6 Reference-to-Video Flashは、標準的なWAN 2.6 Reference-to-Videoモデルの速度最適化版です。フルサイズモデルから蒸留されており、WAN 2.6 R2Vファミリーをユニークにするコア機能を保持しています。キャラクター、小道具、またはシーンのリファレンス画像をアップロードし、希望する動画を説明するテキストプロンプトを書くと、モデルはリファレンス被写体のアイデンティティと外観を忠実に保持した新しい動画ショットを生成します。

Flashバージョンは大幅に高速な推論を実現し、分単位ではなく秒単位で動画を生成します。WAN 2.6シリーズを定義する視覚品質、モーションコヒーレンス、アイデンティティ保持を維持しながら、最大5枚のリファレンス画像、720pおよび1080p出力、5秒または10秒のデュレーション、オプションの同期音声生成をサポートします。

主な機能

マルチリファレンス入力: 最大5枚のリファレンス画像をアップロードして生成をガイドします。同じ被写体の複数のアングルと視点を使用すると、より良いアイデンティティ保持が得られます。これは一般的なシングルリファレンスワークフローに比べて大幅な改善です
スピードを伴うアイデンティティ保持: Flashモデルは、生成されたすべてのフレームにわたってリファレンス被写体の顔の特徴、衣服、体のプロポーション、独自の特性を維持します。待ち時間が劇的に短縮されました
マルチショット構成: 単一の連続ショット、または自動マルチショット構成を選択できます。マルチショット構成はプロンプトを滑らかなトランジションを持つ複数のコヒーレントなショットに分割します。単一のAPIコールから映画的なストーリーテリングが可能です
組み込み音声生成: BGM、環境音、効果音など、生成された動画コンテンツに合わせた同期音声をオプションで有効にできます。ポストプロダクションの吹き替えは不要です
解像度の柔軟性: 出力要件に合わせて720p（1280×720または720×1280）または1080p（1920×1080または1080×1920）で生成できます。横向きまたは縦向きに対応
プロンプト拡張: 組み込みのプロンプトエンハンサーが説明を自動的により豊かで詳細なプロンプトに改善し、専門的なプロンプトエンジニアリングを必要とせずに生成品質を向上させます

実際のユースケース

キャラクター主導のソーシャルメディアコンテンツ

複数の動画にわたって一貫したキャラクターを特徴とするTikTok、Reels、YouTubeショートを作成します。キャラクターやブランドマスコットの写真をいくつかアップロードし、シーンを説明して、スケールでブランドに合ったコンテンツを生成します。Flashのスピードにより、迅速なイテレーションが実用的になります。標準モデルが少数のバリエーションを生成する時間で、何十ものバリエーションをテストできます。

マーケティングと広告のプロトタイピング

特定の人物やキャラクターを特徴とし、すべてのショットで一貫したアイデンティティを持つ製品デモ、ブランドコマーシャル、キャンペーンコンセプトを生成します。マルチショットモードを使用して、同期音声を完備した構造化された広告シーケンスを作成し、プリプロダクションの数日分を数分に短縮します。

ナラティブストーリーテリングとアニメーション

シーンの変化を通じてキャラクターが外見を維持する短いナラティブシーケンスを構築します。マルチリファレンス機能により、単一の生成で複数のキャラクターを確立でき、マルチショットモードがトランジションとペーシングを自動的に処理します。ライターやストーリーボードアーティストは、シーンを説明するのとほぼ同じ速さで視覚化できます。

映画のラピッドプレビジュアライゼーション

監督や撮影監督は、俳優やロケーションのリファレンス写真を使用してショットやシーケンスをプレビジュアライズできます。Flashモデルのスピードにより、ライブのクリエイティブフィードバックループが可能になります。プロンプトを調整し、再生成して、長いレンダリングキューを待たずに秒単位で結果を確認できます。

Eコマースと製品動画

静的な製品写真を一貫したブランディングを持つダイナミックな製品動画に変換します。製品画像をリファレンスとしてアップロードし、希望するモーションと環境を説明して、リスティングや広告に対応したポリッシュされた動画コンテンツを生成します。

WaveSpeedAIでの始め方

WaveSpeedAI APIを通じてWAN 2.6 Reference-to-Video Flashを使用する方法はシンプルです：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "reference_urls": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg"
    ],
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "size": "1280*720",
    "duration": 5,
    "shot_type": "single",
    "enable_audio": True,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.6/reference-to-video-flash", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

設定オプション

パラメータ	説明
`reference_urls`	キャラクターとシーンのガイダンス用の1〜5枚のリファレンス画像
`prompt`	動画シーンとモーションのテキスト説明
`size`	出力解像度：720pまたは1080p、横向きまたは縦向き
`duration`	動画の長さ：5秒または10秒
`shot_type`	連続した1ショットには`single`、多様な構成には`multi`
`enable_audio`	同期音声を生成（デフォルトで有効）
`enable_prompt_expansion`	プロンプトを自動強化（デフォルトで無効）

料金

解像度	デュレーション	音声なし	音声あり
720p	5秒	$0.25	$0.50
720p	10秒	$0.375	$0.75
1080p	5秒	$0.40	$0.80
1080p	10秒	$0.60	$1.20

1動画あたりわずか$0.25から — アイデンティティ一貫性生成に対して他の同等モデルが請求する金額のわずかな割合です。

プロのヒント

最も正確なアイデンティティ保持のために、異なるアングルから複数のリファレンス画像を使用する
映画的でダイナミックな構成と自動トランジションにはmultiショットタイプを選択する
音声が不要な場合は無効にする — 処理が速くなりコストが半分になる
迅速なプロトタイピングとドラフトには720pを使用し、最終的な本番レンダリングには1080pに切り替える
"blurry, distorted, deformed"のようなネガティブプロンプトを追加して出力品質を向上させる
生成した動画に音声がない場合は、プロンプトに「with background ambience」のようなフレーズを追加する

なぜWaveSpeedAIなのか？

WaveSpeedAIはWAN 2.6 Reference-to-Video Flashに最適なインフラを提供します：

コールドスタートなし: すべてのリクエストはすぐに処理を開始します。モデルの初期化を待つ必要はありません
高速推論: 最適化されたインフラとFlashモデルの蒸留アーキテクチャを組み合わせることで、秒単位で結果が得られます
手頃な料金: アイデンティティ一貫性動画生成が$0.25から始まり、透明性のある1生成ごとの請求
シンプルなREST API: 単一のAPIコールで、あらゆるアプリケーションやワークフローにreference-to-video生成を組み込めます

今すぐ生成を始める

Alibaba WAN 2.6 Reference-to-Video Flashは、アイデンティティ保持型動画生成をリアルタイムのクリエイティブワークフローに取り込みます。同じマルチリファレンス入力、同じキャラクター一貫性、同じマルチショットストーリーテリング — プロジェクトが求めるスピードで提供されます。

広告コンセプトのイテレーション、キャラクター主導コンテンツのライブラリ構築、または制作のためのシーンのプレビジュアライゼーションなど、このモデルは待ち時間を排除し、クリエイティブな作業に集中できるようにします。

今すぐwavespeed.ai/models/alibaba/wan-2.6/reference-to-video-flashでお試しください。