← ブログ

ByteDance Seedance 2.0 テキスト・ツー・ビデオがWaveSpeedAIに登場

Seedance 2.0 テキスト・ツー・ビデオは、ネイティブな音声・映像同期、監督レベルのカメラコントロール、そして優れたモーション安定性を備え、テキストプロンプトからハリウッド級の映画的動画を生成します。

2 min read
Bytedance Seedance.2.0 Text To Video Seedance 2.0 テキスト・ツー・ビデオは、ネイティブな音声・映像同期、監督レベルのカメラコントロール、そして優...
Try it

WaveSpeedAIでByteDance Seedance 2.0 テキスト→動画が登場:映画的AIビデオの新時代

ジェネレーティブ動画はここ2年間、プロフェッショナルな制作水準に追いつこうとしてきました。ほとんどのモデルは音声なしでリリースされ、ショット中に被写体を見失ったり、カメラの動きを指示した途端に崩壊したりします。本日、ByteDance Seedance 2.0 テキスト→動画がWaveSpeedAIで利用可能になったことをお知らせします。これはテキストだけからハリウッド級の映画的クリップを生成するフラッグシップ動画モデルで、ネイティブ音声を内蔵し、カメラをディレクターレベルで制御できます。

実際のプロダクションパイプラインに組み込めるテキスト→動画モデルを待っていたなら、これが試すべきモデルです。

Seedance 2.0 テキスト→動画とは?

Seedance 2.0はByteDanceのSeedビデオファミリーの最新世代で、テキスト、画像、音声、動画の入力を単一モデルでネイティブに受け付ける統合マルチモーダルアーキテクチャ上に構築されています。テキスト→動画モードは、書かれたシーン描写を完成した映画的クリップへと変換します。

Seedance 2.0を際立たせる3つのポイント:

  1. 音声は動画と同時に単一パスで生成され、同期したセリフ、効果音、アンビエンスを提供します。別途の音声スタックは不要です。
  2. カメラ、ライティング、演技は平易な英語で制御可能です。スロードリーイン、ドラマチックなリムライト、特定の表情を指定すると、モデルはそれに従います。
  3. 長いショット全体でモーションが安定しており、一貫した被写体、物理的に自然な動き、最長15秒までのクリーンなトランジションを実現します。

このモデルは単一エンドポイント bytedance/seedance-2.0/text-to-video で公開されており、480pから1080pまで6つのアスペクト比で出力できます。

主な機能

統合マルチモーダルアーキテクチャ

Seedance 2.0はアドオンアダプターを積み重ねたものではありません。同じ基盤モデルがテキスト、画像、音声、動画のコンディショニングを処理するため、プロンプトが高度になっても単一エンドポイントのままで対応できます。キャラクターの一貫性のためにリファレンス画像を追加したり、モーションスタイルのためにリファレンス動画を追加したり、トーンのためにリファレンス音声を追加したりしても、モデルを切り替える必要はありません。

ネイティブ音声・映像同期

ほとんどのテキスト→動画モデルは無音のクリップを渡し、音声は別の問題として残します。Seedance 2.0は動画と同期した音声をインラインで生成するため、セリフがリップシンクし、足音が正しいフレームに合い、雰囲気がスクリーン上のムードと一致します。その結果、クリップは仕上がった瞬間から完成品のように感じられ、ポスト作業を待つ荒削りな素材ではありません。

ディレクターレベルの制御

Seedance 2.0はディレクターがショットリストを読むようにプロンプトを読み取ります。カメラの動き(プッシュイン、クレーンアップ、ウィップパン)、ライティングセットアップ(ゴールデンアワー、リムライト、ロウキー)、影の方向、レンズの質感、さらにはキャラクターの演技まで自然言語で指定でき、モデルはそれを忠実に反映します。これが「AIビデオ」と使えるテイクの違いです。

プロダクショングレードの映画的クオリティ

視覚的には、このモデルは汎用的なストック映像ではなくプロフェッショナルシネマの外観を目指しています。ドラマチックなライティング、考え抜かれたカラーグレーディング、滑らかで自然なモーション、強い被写体の一貫性を備えています。サムネイルとしてだけでなく、1080pのタイムライン上でも十分に機能します。

優れたモーションの安定性

長いショットはほとんどの動画モデルが崩れる場面です。Seedance 2.0は全デュレーション範囲にわたって安定した被写体、一貫した物理挙動、流れるようなトランジションを維持するため、10秒・15秒の出力を切り詰めるための素材としてではなく、完成したショットとして実際に使用できます。

優れた指示への忠実性

詳細なシーン描写、ショット構成、クリエイティブな演出指示が忠実に反映されます。衣装、小道具、立ち回り、ムードなどの細部を重ねて指定しても、それらが平均化されることなく出力に反映されることを期待できます。

ユースケース

  • 映画・TV のプレビジュアライゼーション — クルーと予算を投入する前にショットとシーケンスをブロックアウトします。すでにサウンドデザインを含むアニマティックを生成できます。
  • コマーシャルとブランド広告 — 映画的なライティングと同期したナレーションや音楽を備えたプレミアムな5〜15秒スポットを制作します。
  • ミュージックビデオ — ネイティブ音声同期でスタイライズされたパフォーマンスとナラティブカットを作成し、最終トラックを当てはめます。
  • プレミアムソーシャルコンテンツ — 生成されたものではなく制作されたように見える映画グレードのショートフォームクリップで9:16フィードで際立ちます。
  • 教育・解説コンテンツ — 明確なモーションと組み込みのナレーションキューで抽象的な概念、歴史的シーン、科学現象を映像化します。
  • コンセプトとピッチデッキ — 静的なボードの代わりにプロダクションクオリティの動く映像で映画、TV、ゲームのコンセプトをプロデューサーやパブリッシャーに売り込みます。
  • ゲームシネマティックとトレーラー — 開発の早い段階でトレーラーのビートと重要なシネマティックモーメントをプロトタイプ化します。

パラメータ

パラメータ必須説明
promptはいシネマティックシーンの詳細な説明
aspect_ratioいいえ出力フォーマット:16:9(デフォルト)、9:16、4:3、3:4、1:1、21:9
durationいいえ秒単位の動画長:4〜15(デフォルト:5)
resolutionいいえ出力解像度:480p、720p(デフォルト)、または1080p
reference_imagesいいえスタイル、キャラクター、構図を誘導するリファレンス画像URL
reference_videosいいえリファレンス動画URL(合計長は15秒以内)
reference_audiosいいえリファレンス音声URL(合計長は15秒以内)

料金

解像度時間リファレンス動画なしリファレンス動画あり
480p5秒$0.60$1.20
480p10秒$1.20$2.40
480p15秒$1.80$3.60
720p5秒$1.20$2.40
720p10秒$2.40$4.80
720p15秒$3.60$7.20
1080p5秒$3.00$6.00
1080p10秒$6.00$12.00
1080p15秒$9.00$18.00

料金は4〜15秒の全デュレーション範囲にわたって線形にスケールします。基本レートは480pで5秒あたり$0.60、720pは基本の2倍、1080pは基本の5倍、リファレンス動画を追加すると価格が2倍になります。

コード例

WaveSpeed Python SDKでモデルを呼び出します:

import wavespeed

output = wavespeed.run(
    "bytedance/seedance-2.0/text-to-video",
    {
        "prompt": "A lone astronaut walks across a windswept red desert at golden hour, dramatic rim light, slow dolly in, cinematic 35mm look, distant mountains, swirling dust",
        "aspect_ratio": "16:9",
        "duration": "10",
        "resolution": "1080p",
    },
)

print(output["outputs"][0])

スタイル、モーション、音声トーンをより強く誘導したい場合は、reference_imagesreference_videosreference_audios を組み合わせて使用できます。

プロのヒント

  • ディレクターのように書く。 ライティング(例:「柔らかい窓からの光、長い影」)、レンズの質感、カメラの動き、被写体のアクションを指定してください。曖昧なプロンプトは曖昧なショットになります。
  • アスペクト比を最初に決める。 シネマティックなワイドスクリーンには16:9、プレミアムな縦型には9:16、アナモルフィックスタイルのフレームには21:9を選択します。
  • 480pまたは720pで反復する。 低コストの解像度で構図とモーションを固め、最終候補を1080pで再レンダリングします。
  • 短くから始めて延ばす。 4〜5秒から始めてルックとトーンを調整し、プロンプトが固まったら10〜15秒に伸ばします。
  • 音声キューを活用する。 セリフの意図、音楽のムード、アンビエントサウンドに言及してください。ネイティブ音声はプロンプトの一部としてこれらに反応します。

FAQ

Seedance 2.0 テキスト→動画は本当に音声を生成しますか? はい。ネイティブな音声・映像同期が組み込まれているため、動画は同じパスで生成された同期サウンドと共に返ってきます。別途のテキスト→音声や音声モデルを実行する必要はありません。

最大クリップ長はどのくらいですか? デュレーションは4〜15秒の範囲で連続しています。その範囲内で任意の整数デュレーションをリクエストでき、料金はデュレーションに応じて線形にスケールします。

どの解像度とアスペクト比がサポートされていますか? 出力解像度は480p、720p(デフォルト)、1080pです。アスペクト比は16:9(デフォルト)、9:16、4:3、3:4、1:1、21:9です。

リファレンス入力はいつ使用すべきですか? リファレンス画像はキャラクター、スタイル、構図をアンカーするのに役立ちます。リファレンス動画はモーションやショットスタイルを誘導します(注:これにより価格が2倍になります)。リファレンス音声はトーン、音楽、声を形作ります。リファレンス動画と音声を組み合わせた合計長は15秒以内にする必要があります。

Seedance 2.0 テキスト→動画は画像→動画やFastバリアントと比べてどうですか? テキスト→動画はプロンプトだけから始まり、ソースフレームがない場合に適した選択肢です。画像→動画は既存の画像をアニメートします。Fast テキスト→動画は一部の品質を犠牲にしてより安価で速い生成を提供し、反復や大量ユースケースに最適です。

関連モデル

始めましょう

Seedance 2.0 テキスト→動画はWaveSpeedAIの最適化された推論スタックで動作し、コールドスタートなし、予測可能な料金、単一のREST APIを提供します。長編映画のプレビジュアライゼーション、ブランドスポットの制作、次のAIネイティブ動画プロダクトの構築など、このモデルは1回の呼び出しで映画的な出力とネイティブ音声を提供します。

WaveSpeedAIでSeedance 2.0 テキスト→動画を試すで、プロンプトで撮影を始めましょう。