daVinci MagiHuman Text-to-VideoがWaveSpeedAIに登場
daVinci MagiHuman Text-to-Videoは、テキストプロンプトからシネマティックな人物中心の動画を生成し、オプションの音声同期にも対応。150億パラメータのオープンソースモデルで、最大1080p・5〜10秒の動画を出力。REST API対応、$0.04/秒、コールドスタートなし。
WaveSpeedAIのdaVinci MagiHuman Text-to-Video:テキストだけで人物中心の動画を生成
参照画像は不要です。シーン、キャラクター、動き、雰囲気を描写するだけで — daVinci MagiHuman Text-to-Video が純粋なテキストプロンプトから、オプションの音声同期機能付きで映画的な人物中心の動画を生成します。
人間評価で商業競合他社を圧倒した(Ovi 1.1に対して80%の勝率)同じ150億パラメータのオープンソースアーキテクチャを基盤に構築されたMagiHuman Text-to-Videoは、リアルな人体の動き、表情豊かな顔のパフォーマンス、そして自然な身体の動態に特化して設計されています。WaveSpeedAI上でREST APIを通じて今すぐ利用可能です。
daVinci MagiHuman Text-to-Videoの仕組み
自然言語でシーンを描写してください — キャラクター、設定、カメワーク、照明、雰囲気 — MagiHumanはその描写を映像として生き生きと表現します。モデルのシングルストリームトランスフォーマーアーキテクチャは、テキスト、映像、音声トークンを統一されたシーケンスで処理し、動作が同期された一貫性のある人物中心の動画を生成します。
MagiHumanが汎用テキスト-動画モデルと異なるのは、人物被写体への最適化です。他のモデルが人物をシーン内の単なるオブジェクトとして扱うのに対し、MagiHumanは表情、発話と表情の連携、リアルな身体の運動学、自然なジェスチャーのダイナミクスを、生成された人物が本当に生きているように見えるレベルで理解しています。
オプションの音声トラックを追加すると、モデルは音楽や音声に合わせて生成された動画を同期させます — リズムに合わせた動き、表情の変化、そして自然なパフォーマンスエネルギー。
daVinci MagiHuman Text-to-Videoの主な特徴
-
人物中心の卓越性:リアルな人体の動き、表情、身体のダイナミクスのために特別に設計 — 汎用モデルへの後付けではありません。
-
150億オープンソースアーキテクチャ:WER 14.60%(Ovi 1.1の40.45%に対して)を達成し、人間評価で80%の勝率を記録した同じモデルアーキテクチャ。Apache 2.0ライセンス。
-
音声ガイド生成:音楽トラックや音声をアップロードすると、モデルは音声に同期した動画を生成 — リップシンク、表情、身体の動きがすべて合致。
-
最大1080p、5〜10秒:高速な試行錯誤には256p、本番用には720p、プレミアム出力には1080pで生成。1秒単位で調整可能な動画時間。
-
2種類のアスペクト比:映画的な横長には16:9、ソーシャルメディアの縦長には9:16 — あらゆるプラットフォームへのネイティブサポート。
-
組み込みプロンプトエンハンサー:より良いシーン構成と視覚的品質のために、テキスト説明を自動的に改善。
-
再現可能な結果:特定のクリエイティブな方向性で一貫した反復作業のためのシードパラメータ。
daVinci MagiHuman Text-to-Videoの最適なユースケース
映画的なキャラクターシーン
キャラクター、環境、カメワークを描写すると、MagiHumanが自然な人物のパフォーマンスを持つ映画的なシーンを生成します。「トレンチコートを着た女性が夜の雨の東京の路地を歩く、手持ちカメラ、暖かいネオンの反射、浅い被写界深度。」
音声同期ミュージックビデオ
音楽トラックをアップロードしてビジュアルコンセプトを描写します。MagiHumanはキャラクターの動き、表情、エネルギーがビートに同期した動画を生成 — 1回のAPI呼び出しでミュージックビデオ制作パイプラインが完成。
ソーシャルメディアコンテンツの大規模生成
TikTok、Instagram Reels、YouTube Shorts向けに縦長(9:16)のキャラクター主導コンテンツを生成。シーンを描写し、動画を取得して投稿。コンテンツ制作を1日1本から数十本に拡大。
バーチャルスポークスパーソンの生成
参照写真なしでテキスト説明からトーキングヘッド動画を作成。スポークスパーソンの外見、設定、話し方を描写すると、MagiHumanが完全な動画を生成。音声を追加すればリップシンクした発話も可能。
ストーリーボードとプリビジュアライゼーション
監督やプロデューサーがスクリプトの説明からシーンプレビューを生成できます。キャスティング、ロケーション、プロダクションデザインの決定を下す前に、シーンが動きの中でどのように見えるかを確認。
広告クリエイティブのテスト
テキスト説明から複数の広告コンセプト動画を生成。それぞれ異なるキャラクター、設定、雰囲気で作成。本格的な制作に投資する前に、どのクリエイティブの方向性が響くかをテスト。
daVinci MagiHuman Text-to-Videoの料金とAPIアクセス
| 動画時間 | 256p | 720p | 1080p |
|---|---|---|---|
| 5秒 | $0.15 | $0.20 | $0.25 |
| 7秒 | $0.21 | $0.28 | $0.35 |
| 10秒 | $0.30 | $0.40 | $0.50 |
秒単位課金:$0.03(256p)、$0.04(720p)、$0.05(1080p)。
参照写真を使った画像ガイド生成には、daVinci MagiHuman Image-to-Videoをご利用ください。
なぜWaveSpeedAIを選ぶのか?
- コールドスタートなし:動画生成が即座に開始
- シンプルなREST API:テキストプロンプト+オプション音声=映画的な動画
- 従量課金制:秒単位の課金、サブスクリプション不要
- 完全なMagiHumanスタック:Text-to-VideoとImage-to-Videoの両方を1つのプラットフォームで
daVinci MagiHuman Text-to-Videoで最良の結果を得るためのヒント
- 詳細なプロンプトを書く — 最も映画的な結果を得るために、キャラクターの説明、設定、照明、カメラの動き、雰囲気を含める
- カメラ言語を指定する:「トラッキングショット」、「クローズアップ」、「ドリーズーム」、「空撮」、「ボケ背景」
- 1080pでレンダリングする前に256p($0.03/秒)でテストする
- 音声トラックは結果を変える — アンビエント音楽でさえ、動きの品質とリズムを劇的に改善
- クローズアップのキャラクターコンテンツには9:16、シーン主導の映画的なショットには16:9を使用
- 有望な結果が見つかったらシードを固定し、その後プロンプトを反復改善する
FAQ
daVinci MagiHuman Text-to-Videoとは何ですか?
人物中心のコンテンツに最適化された150億パラメータのオープンソース動画生成モデル。オプションの音声同期機能付きで、テキストプロンプトから最大1080p・10秒の映画的な動画を生成します。
他のテキスト-動画モデルとどう違うのですか?
MagiHumanは人物被写体のために特別に設計されており — リアルな表情、自然な体の動き、汎用モデルでは実現できない発話と表情の連携が可能です。
費用はいくらですか?
解像度に応じて1秒あたり$0.03〜$0.05。720pの5秒動画は$0.20です。
音声を追加できますか?
はい。音楽トラックや音声をアップロードすると、モデルは音声に同期した動画を生成 — 口の動き、表情、身体の動きがすべて合致します。
オープンソースのdaVinci-MagiHumanと関係がありますか?
はい。同じ150億パラメータのアーキテクチャ、Apache 2.0ライセンスです。WaveSpeedAIでは、GPUインフラを管理することなく、即座にAPIアクセスが可能です。
WAN 2.5と比べてどうですか?
MagiHumanは動画生成品質において「WAN 2.5と同等」と評されており、特に人物中心のシナリオ — 顔のパフォーマンス、リップシンク、身体のダイナミクスで強みを発揮します。
テキストからスクリーンへ、人物中心の動画生成
WaveSpeedAI上のdaVinci MagiHuman Text-to-Videoは、150億のオープンソース基盤モデルの力をすべてのクリエイターに届けます — テキストプロンプトだけで、映画的な人物パフォーマンス、音声同期、そしてリアルな動きを実現。

