Vidu Q3 Start End to VideoがWaveSpeedAIに登場

WaveSpeedAIでVidu Q3 Start-End to Videoを紹介

Shengshu Technologyの最先端スタート・エンドフレームビデオモデルが登場しました。Vidu Q3 Start-End to VideoがWaveSpeedAIで利用可能になったことを喜んでお知らせします。世界トップランクのVidu Q3世代の力を、精密なデュアルキーフレームビデオ制作にご活用ください。

Vidu Q3は2026年1月30日にリリースされ、Artificial Analysisのベンチマークで中国1位、世界2位を獲得して大きな注目を集めました。今回、Start-End to Videoバリアントにより、クリエイターは同じ業界最高クオリティを活用しながら、生成動画の開始フレームと終了フレームの両方を完全にコントロールできるようになりました。スタート画像、エンド画像、テキストプロンプトを提供するだけで、最大1080pの解像度で2つの状態の間にスムーズで映画的なトランジションを生成します。

Vidu Q3 Start-End to Videoとは？

Vidu Q3 Start-End to Videoは、2つの参照フレームをインテリジェントにつなぎ合わせ、高品質な動画を生成するデュアルキーフレーム補間モデルです。1枚の画像から予測不可能に外挿する標準的なimage-to-videoモデルとは異なり、このモデルは動画の始まりと終わりの両方を固定し、その間の自然なモーションパスを合成します。

基盤となるVidu Q3アーキテクチャはQ2から世代的な飛躍を遂げています。Shengshu Technologyの先進的なビジョントランスフォーマー基盤の上に構築されたQ3は、視覚的な忠実度の向上、モーションの一貫性の改善、優れた物理的論理を実現しています。独立したテストでは物理スコア7.5/10を獲得し、オブジェクトの相互作用がリアルで、キャラクターの動きが自然で重みを感じさせます。フレームレベルの歪みは以前の世代と比べて大幅に削減され、モーションの連続性も顕著に滑らかになっています。

Start-Endバリアントが特に強力なのは予測可能性にあります。従来のAIビデオ生成は美しいながらも制御できない結果を生み出していました。両端点を制約することで、クリエイターはQ3の映画的なモーションエンジンと自然な補間の恩恵を受けながら、動画のナラティブアークを精密に指示できます。

主な機能

Q3世代の視覚品質 Vidu Q3は、以前のViduモデルと比べてアーティファクトが少なく、より鮮明な映像を生成します。アーキテクチャとデータ拡張の改善により、フリッカーが低減されモーションの連続性が向上し、アルゴリズム的ではなく意図的に見える出力が得られます。

デュアルフレーム精密制御 開始と終了のビジュアルの両方を定義できます。モデルはクリップ全体を通じてアイデンティティ、照明、構図、空間的関係を維持し、最初のフレームから最後のフレームまで被写体の一貫性を確保します。

スムーズで物理対応の補間 AIパワードのモーションエンジンが、2つの参照フレーム間に自然で流動的な動きを生成します。オブジェクトは現実的な物理法則に従い、キャラクターは重みと意図を持って動き、カメラトランジションは映画的に作り込まれた感覚を与えます。

複数の解像度オプション 540p、720p、1080pの出力から選択し、品質とコストのバランスを取ることができます。低解像度でアイデアをプロトタイプするときでも、フルHDで最終成果物を制作するときでも、モデルはワークフローに適応します。

モーション振幅コントロール トランジションのモーション強度を微調整できます。穏やかな変換にはさりげない動きを使用したり、劇的なモーフや激しいシーンには強度を上げたりすることができます。

ネイティブ音声生成 Q3アーキテクチャから受け継いだ際立った機能：追加コストなしでオプションの同期音声とBGM生成が可能です。動画にサウンドデザインを含めて完成させることができ、別途音声制作を必要としません。

組み込みプロンプトエンハンサー 統合されたプロンプト強化ツールが自動的にシーンの説明を改善し、複雑なプロンプト技術をマスターしなくても良い結果を得ることができます。

実際のユースケース

映画的なシーントランジション

映画、CM、ミュージックビデオ向けに2つの視覚的状態間のスムーズなトランジションを作成します。オープニングショットとクロージングショットを入力し、カメラの動きとアクションを説明すれば、高価なVFX作業が必要だったプロフェッショナルなつなぎ映像を生成できます。

製品モーフィングとショーケース

洗練されたビデオトランジションで製品の変換、カラーバリエーション、機能の変化を表示します。コスメブランドはシェードオプション間をモーフィングし、自動車メーカーはトリムレベル間をトランジションできます。すべてスムーズで制御されたモーションで実現します。

Before-Afterコンテンツ

フィットネス変容、ホームリノベーション、季節の景観変化—コントラストによってストーリーを伝えるあらゆるシナリオが、2つの状態間のスムーズでプロフェッショナルなビデオトランジションから恩恵を受けます。デュアルフレーム制御により、「before」と「after」の瞬間が意図通りに伝わることを保証します。

キャラクターアニメーションとポーズトランジション

キャラクターを1つのポーズや表情から別のものに移動させます。ゲーム開発者、アニメーター、コンテンツクリエイターは、テキストプロンプトを使用してトランジションのスタイルとタイミングをガイドしながら、手動キーフレームなしでキャラクターの動きを素早くプロトタイプできます。

タイムラプスと時間的エフェクト

制御された開始・終了点で人工的なタイムラプス動画を作成します。日の出から日没、季節の変化、建築工事の進捗を自然に見える時間的補間でシミュレートします。

ストーリーボードのプリビジュアライゼーション

静的なストーリーボードフレームをアニメーションシーケンスに変換します。スタートとエンドの画像としてキービートを提供すれば、モデルがそれらの間のモーションを生成します。コンセプトのピッチ、編集フローのテスト、制作にコミットする前のカメラムーブのプレビューに最適です。

WaveSpeedAIでの始め方

WaveSpeedAIでVidu Q3 Start-End to Videoを使用するのは、いくつかのステップだけです：

スタート画像をアップロード — 動画の最初のフレーム
エンド画像をアップロード — 動画の最後のフレーム
プロンプトを書く — フレーム間のモーション、アクション、トランジションを説明
デュレーションを設定 — 動画の長さを選択（デフォルト：5秒）
解像度を選択 — スピード重視なら540p、バランス重視なら720p、最高品質なら1080p
モーションを調整（オプション） — 振幅設定で動きの強度をコントロール
音声を有効化（オプション） — 同期音声とBGMをトグル
生成 — 送信して完成した動画をダウンロード

WaveSpeedAIのインフラはコールドスタートなしで高速な推論を提供するため、需要に関わらず動画を素早く生成できます。REST APIは既存のプロダクションパイプラインやクリエイティブワークフローに直接統合できます。

透明な料金体系

コストは解像度と長さによって予測可能にスケールします：

解像度	1秒あたりのコスト	5秒動画	10秒動画
540p	$0.07	$0.35	$0.70
720p	$0.15	$0.75	$1.50
1080p	$0.16	$0.80	$1.60

音声生成は追加コストなしで含まれています。サブスクリプションや隠れた手数料はなく、生成した分だけお支払いいただきます。

API統合

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "last_image": "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg",
    "duration": 5,
    "resolution": "720p",
    "bgm": True,
    "generate_audio": True,
    "movement_amplitude": "auto",
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/vidu/q3/start-end-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

なぜWaveSpeedAIなのか？

コールドスタートなし — インフラが常時稼働しており、最初のリクエストから何千番目のリクエストまで一貫した生成速度を提供
すぐに使えるREST API — インフラのセットアップをスキップして即座に生成を開始
手頃な従量課金制 — サブスクリプションやコミットメントなし、使用量に応じてスケール
エンタープライズ信頼性 — 一貫したアップタイムでプロダクションワークロード向けに構築されたインフラ

まとめ

Vidu Q3 Start-End to Videoは、世界第2位のAIビデオモデルの力を精密ガイド付きビデオ制作にもたらします。Q3の優れた視覚品質、物理対応モーション、ネイティブ音声生成をデュアルキーフレーム制御と組み合わせることで、以前のAIビデオ生成では不可能だったレベルのクリエイティブな精度を実現します。

映画的なトランジションの制作、製品ショーケースの作成、キャラクターのアニメーション、ストーリーボードのプロトタイプ作成など、このモデルはナラティブのエンドポイントを定義する制御を提供し、AIがその間のすべてを美しく処理します。

WaveSpeedAIでVidu Q3 Start-End to Videoを試す →