Alibaba WAN 2.7 Text-to-VideoがWaveSpeedAIに登場

WAN 2.7 テキストから動画：音声同期モーションによるシネマティックAI動画生成

WAN 2.7 テキストから動画は、Alibabaが開発した最新のシネマティックAI動画生成モデルです。プレーンテキストのプロンプトから、安定したモーション、鮮明なディテール、高い指示追従性を持つ高品質なクリップを生成します。WaveSpeedAIで利用可能になったWAN 2.7は、音声入力サポート、ネガティブプロンプト制御、柔軟な解像度オプションを提供し、広告、解説動画、ミュージックビデオ、ソーシャルコンテンツを大規模に制作するクリエイターを支援します。

制作クルーなしで放送品質のアウトプットを必要とするチームにとって、WAN 2.7はテキストプロンプトと完成クリップの間のギャップを埋めます。自然言語で記述されたカメラの方向、照明の指示、被写体の動作を尊重した最大1080pの動画を生成できます。

WaveSpeedAIでWAN 2.7 テキストから動画を試す →

WAN 2.7 テキストから動画の仕組み

WAN 2.7は拡散ベースのテキストから動画モデルで、自然言語プロンプトを解釈して時間的に一貫性のある動画に合成します。フレーム間のオブジェクト一貫性に苦労していた従来のテキストから動画システムとは異なり、WAN 2.7はクリップ全体を通じて安定したアイデンティティ、物理的に自然な動き、スムーズなカメラモーションを維持します。

モデルはメインのpromptとさまざまなオプション制御を受け付けます：

解像度：720p（デフォルト）または1080p出力
アスペクト比：デフォルト16:9、9:16縦型、1:1正方形、シネマティックワイドスクリーンなど柔軟なオプション
尺：クリップあたり5秒、10秒、または15秒
ネガティブプロンプト：不要なアーティファクト、スタイル、要素を除外
音声入力：トラックをアップロードして視覚的なリズムとペーシングを同期
プロンプト拡張：疎なプロンプトに生成前にシネマティックなディテールを自動的に追加するオプションモード
シード：再現可能なイテレーションのためにアウトプットを固定

音声条件付き生成こそが、WAN 2.7を他のテキストから動画APIと差別化する点です。競合モデルが映像を単独でレンダリングするのに対し、WAN 2.7は音楽トラックやナレーションに合わせてカット、モーション強度、ペーシングを調整できます。これにより、ミュージックビデオ、広告スポット、ナレーション付き解説動画に直接活用できます。

WAN 2.7 テキストから動画の主な特徴

シネマティックな映像品質 — 1080p納品解像度でも通用する、正確な照明、奥行き、構図を持つ詳細なシーンを生成します。
音声同期アウトプット — 音声トラックを提供すると、モデルがモーションをそれに合わせてペーシングし、ポスト作業でのカット・トリミング手順を不要にします。
高い指示追従性 — カメラの動き、カラーパレット、被写体の動作がプロンプトの記述通りに生成動画に反映されます。
ネガティブプロンプト制御 — よくあるアーティファクト（ぼやけた顔、歪んだ四肢、不要なテキスト）を明示的に除外し、クリーンなアウトプットを実現します。
プロンプト拡張モード — 短いプロンプトがシーンの詳細で自動補完されるため、段落全体の説明を書かずに済むバッチワークフローに最適です。
再現可能な生成 — 気に入った結果が見つかったらシードを固定し、見た目を失うことなく解像度や尺をイテレーションできます。
プロダクション対応解像度 — 高速納品向けの720p、クライアント品質の納品物向けの1080p。

WAN 2.7 テキストから動画の最適なユースケース

シネマティックなストーリーテリングとナラティブショート

映画制作者やストーリーテラーは、詳細なプロンプトから雰囲気のある物語駆動型シーンをレンダリングできます。カメラアングル、照明スタイル、ムード、被写体のアクションを1つの段落で記述すれば、使用可能なシネマティックショットが得られます。WAN 2.7の安定したモーションは、エスタブリッシングショット、夢のシーン、スタイライズされたナラティブインサートに強みを発揮します。

大規模なソーシャルメディアコンテンツ

縦型9:16出力、5秒クリップ尺、高速生成により、WAN 2.7はTikTok、Instagram Reels、YouTube Shortsに最適です。ブランドは1つのコンセプトブリーフから数十種類のプラットフォームネイティブなバリエーションを作成でき、1日の撮影を予約することなくフックや視覚スタイルをテストできます。

マーケティングおよび広告制作

プレロール広告、製品ティーザー、解説動画を制作するエージェンシーは、ストック映像をブランド要件に正確に合致したカスタム生成シーンに置き換えられます。15秒の尺オプションは標準的な広告枠に適合し、1080p出力はほとんどのデジタル広告配信仕様をそのまま満たします。

ミュージックビデオと音声・映像シンク

音声入力機能は音楽クリエイター向けに特化して設計されています。トラックをアップロードし、ビジュアルワールドを記述すれば、WAN 2.7が音楽と同期した動画を生成します。ドラムヒットがカメラカットに、ムードの変化が照明変化に反映されます。インディペンデントミュージシャンはディレクターを雇うことなく完全なビジュアライザーを制作できます。

ピッチングのためのコンセプトビジュアライゼーション

クリエイティブディレクター、プロダクトデザイナー、ゲームスタジオは、制作にコミットする前にWAN 2.7を使って初期段階のアイデアを具現化できます。5秒のクリップでステークホルダーにトーン、パレット、モーション言語を伝えるのに十分であり、スライドデッキのコンセプトを数分でモーションプレビューに変換できます。

解説・教育コンテンツ

コース制作者とSaaSマーケティングチームは、データフロー、生物学的プロセス、歴史的シーンなどの抽象的なコンセプトを、アニメーション図よりも注目を引くシネマティックなクリップで表現できます。ナレーションを音声入力としてアップロードすることで、生成動画とボイスオーバーを組み合わせられます。

Eコマースのブランデッドコンテンツ

DtoCブランドは、製品カテゴリーにフィットするライフスタイルBロールを生成できます。調理器具向けの料理シーン、アパレル向けのアウトドアシーン、ホームグッズ向けのアンビエントセッティングなど、動画チームを契約するコストのほんの一部で実現できます。

最初のWAN 2.7動画を生成する →

WAN 2.7の料金とAPIアクセス

WAN 2.7 テキストから動画は生成動画の秒数に応じた課金で、各解像度ティアで明確なフラットレートが設定されています：

尺	720p	1080p
5秒	$0.50	$0.75
10秒	$1.00	$1.50
15秒	$1.50	$2.25

720p：秒あたり$0.10
1080p：秒あたり$0.15（基本レートの1.5倍）

サブスクリプション料金なし、最低コミットメントなし、コールドスタートなし — 生成した分だけ支払います。WaveSpeedAIの推論インフラにより、最初のリクエストも1000回目のリクエストと同じレイテンシで実行されます。

APIの例

WaveSpeed Python SDKを使った1回のREST呼び出しで動画を生成できます：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.7/text-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

音声同期生成の場合は、audioパラメータで公開アクセス可能な音声URLを渡します。アーティファクトを除外するにはnegative_promptを追加します。WAN 2.7に短いプロンプトを自動的に補完させるには、enable_prompt_expansionをtrueに設定します。

WaveSpeedAIカタログ内の選択肢を比較したい場合は、スタイル、レイテンシ、コストのトレードオフが異なる他のテキストから動画モデルも評価することをお勧めします。

WAN 2.7で最良の結果を得るためのヒント

撮影技法を具体的に指定する。 カメラアングル（ローアングル、オーバーヘッド、ドリーイン）、レンズスタイル（アナモルフィック、35mm、ワイド）、照明（ゴールデンアワー、ネオン、ハードシャドウ）を含めてください。汎用的なプロンプトは汎用的なアウトプットしか生みません。
ネガティブプロンプトでアウトプットをクリーンアップする。 よく使われるエントリー：「blurry, distorted faces, low contrast, watermark, text overlay, jittery motion」。これ1つのパラメータで一般的なアーティファクトのクラスを除去できます。
短いプロンプトにはプロンプト拡張を有効にする。 簡単なコンセプトリストからバッチ生成する場合、プロンプト拡張がシネマティックな結果を生むシーンの詳細を追加します — 段落を書く必要がありません。
気に入った結果が見つかったらシードを固定する。 720pで理想の見た目を確立したら、シードを固定して1080pで再実行し、同じクリップの最終品質バージョンを得てください。
アスペクト比をプラットフォームに合わせる。 縦型ソーシャルには9:16、YouTubeとウェブプレイヤーには16:9、フィード投稿には1:1、ナラティブワークにはシネマティックワイドスクリーンを使用してください。ターゲット比率で生成する方が、ポストでクロップするよりも優れています。
音楽と広告には音声同期を使用する。 ペーシングが重要な場合、音声トラックを事前に提供する方が、プロンプト言語だけでモーションのタイミングを調整しようとするよりも速く、より締まった結果を生みます。

よくある質問

WAN 2.7 テキストから動画とは何ですか？

WAN 2.7 テキストから動画は、Alibabaが開発した高度なAIテキストから動画モデルで、自然言語プロンプトからシネマティック品質の動画クリップを生成します。オプションの音声同期、ネガティブプロンプト制御、1080p出力に対応しています。

WAN 2.7の料金はいくらですか？

WAN 2.7は生成動画の秒数に応じた課金です：720pで$0.10/秒、1080pで$0.15/秒。5秒の720pクリップは$0.50、15秒の1080pクリップは$2.25です。サブスクリプション料金や最低コミットメントはありません。

WAN 2.7はAPIで利用できますか？

はい。WAN 2.7はWaveSpeedAIのREST推論APIとPython SDKを通じて利用可能で、コールドスタートはありません。1回のwavespeed.run()呼び出しで生成動画のURLが返されます。

WAN 2.7は音声入力をサポートしていますか？

はい — WAN 2.7はオプションの音声トラックを受け付け、生成動画のリズム、ペーシング、ムードを同期させます。これにより、ミュージックビデオ、ナレーション付き解説動画、サウンドベッドが定義された広告に適しています。

WAN 2.7はどの解像度とアスペクト比をサポートしていますか？

WAN 2.7は720pまたは1080pで動画を生成し、16:9、9:16、1:1、シネマティックワイドスクリーンを含む柔軟なアスペクト比に対応しています。1つのAPIでソーシャル、ウェブ、放送の配信フォーマットをカバーします。

今すぐWAN 2.7で生成を始めよう

WAN 2.7 テキストから動画は、シネマティック品質、音声同期モーション、プロダクション対応解像度をシンプルなREST APIで提供します。サブスクリプションのロックインもコールドスタートもありません。大規模なソーシャルコンテンツの制作、広告コンセプトのプロトタイピング、ゼロからのミュージックビデオ制作など、WAN 2.7は1つのプロンプトの背後に完全なクリエイティブパイプラインを提供します。