← ブログ

daVinci-MagiHuman:あらゆるデジタルヒューマン生成モデルを圧倒したオープンソースモデル

daVinci-MagiHumanは150億パラメータのオープンソースモデルで、単一のH100で2秒以内にリップシンク付きトーキングヘッド動画を生成します。Ovi 1.1(勝率80%)およびLTX 2.3(勝率60.9%)を凌駕。Apache 2.0ライセンス、多言語対応、超高速処理を実現。

2 min read
daVinci-MagiHuman:あらゆるデジタルヒューマン生成モデルを圧倒したオープンソースモデル

daVinci-MagiHuman:オープンソース、150億パラメーター、あらゆるクローズドモデルを超えた

デジタルヒューマン分野に激震が走った——そして今回の破壊者はオープンソースだ。daVinci-MagiHumanは、Sand.aiとSII GAIR Labが共同開発した150億パラメーターのモデルで、H100 GPU 1枚でわずか2秒で口パク同期した音声付きトーキングヘッド動画を生成する。しかもApache 2.0のもとで完全オープンソースだ。

人間評価では、Ovi 1.1との比較で80%、**LTX 2.3との比較で60.9%**の勝率を達成——どちらもこのカテゴリーで最も優れたモデルだ。単語誤り率14.60%はOvi 1.1の40.45%を圧倒している。これは段階的な改善ではない。世代を超えた飛躍であり、誰でも使うことができる。

daVinci-MagiHumanが重要な理由

正しいオープンソースの実現

完全なスタックがApache 2.0——最も許容度の高い商用ライセンス——のもとでオープンソース化されている:

  • ベースモデルの重み
  • 蒸留モデル(8回のノイズ除去ステップ、分類器なしガイダンス不要)
  • 超解像モデル
  • 完全な推論コードベース
  • DockerおよびConda デプロイ設定

つまり、企業・開発者・研究者を問わず、MagiHumanをダウンロード、デプロイ、改変、商用化できる。制限はなく、API依存もベンダーロックインも使用料もない。

ゲームを変える速度

解像度時間(H100 1枚)
256p(5秒)2秒
540p(5秒)8秒
1080p(5秒)38.4秒

5秒の口パク動画が2秒で生成される。ほとんどの画像生成AIより速い。この速度はこれまで不可能だったユースケースを開く——リアルタイムデジタルアバター、ライブコンテンツ生成、インタラクティブキャラクター。

アーキテクチャ:シンプルさを強みに

他のモデルがクロスアテンション層、独立したモダリティ融合ブロック、マルチエンコーダーパイプラインと複雑さを積み重ねる中、MagiHumanは正反対のアプローチを取る。テキスト、動画、音声のトークンを単純に1つのシーケンスに連結し、セルフアテンションのみを持つ統合トランスフォーマーで処理する。

40層アーキテクチャは「サンドイッチ構造」を採用:最初と最後の4層にはモダリティ固有のプロジェクションがあり、中間の32層はすべてのモダリティで重みを共有する。モデルは結合デノイジング中に直接リップシンクの整合を学習する——別途同期モジュールは不要だ。

このシンプルさは制限ではなく優位性だ。コンポーネントが少ない分、推論が速く、デプロイが容易で、動作が予測しやすい。

daVinci-MagiHumanと競合モデルの比較

指標daVinci-MagiHumanOvi 1.1LTX 2.3
人間の選好(勝率)ベースラインMagiHumanが80%勝利MagiHumanが60.9%勝利
単語誤り率14.60%40.45%
オープンソースApache 2.0プロプライエタリオープンウェイト
パラメーター数15B
速度(256p、5秒、H100)2秒
多言語対応7言語限定的限定的

言語サポート

MagiHumanは7言語の音声生成に対応:中国語(普通話・広東語)、英語、日本語、韓国語、ドイツ語、フランス語。競合モデルのほとんどは英語のみ、または英語と中国語のみのサポートにとどまっている。

MagiHumanで構築できるもの

デジタルアバターとバーチャルプレゼンター

カスタマーサービスボット、バーチャルアシスタント、eラーニング講師、企業コミュニケーション向けのリアルなトーキングヘッド動画を生成する。2秒の生成時間は準リアルタイムアプリケーションを実現可能にする。

大規模なコンテンツローカライズ

1言語でコンテンツを収録し、7言語の口パク同期バージョンを生成する。モデルは自然な音声と正確な唇の同期で多言語音声を処理する。

インタラクティブエンターテインメント

リアルタイムで話し、感情を表現し、反応するデジタルヒューマンを使ったキャラクター主導の体験を構築する——ゲーム、ビジュアルノベル、インタラクティブストーリーテリングなど。

マーケティングと広告

俳優を雇ったりスタジオを予約したりせず、話す人間プレゼンターを起用したパーソナライズされたビデオ広告を生成する。1バージョンから何千ものローカライズバリアントへスケールできる。

ポッドキャストと動画コンテンツ

テキストスクリプトを音声同期のトーキングヘッド動画に変換する。クリエイターはカメラの前に出ることなく、文章からビデオコンテンツを制作できる。

WaveSpeedAIについて

MagiHumanはセルフホスト可能なオープンソースモデルだ。ただし、H100インフラを管理したくない場合、WaveSpeedAIはAPIを通じてすぐに使えるデジタルヒューマンおよびリップシンクモデルをすでに提供している

MagiHumanがWaveSpeedAIで利用可能になった際は、同じAPIからアクセスできる——インフラ管理は不要だ。続報に期待してほしい。

WaveSpeedAIのデジタルヒューマンモデルを見る →

よくある質問

daVinci-MagiHumanとは?

Sand.aiとGAIR Labが開発した150億パラメーターのオープンソースモデルで、音声同期したトーキングヘッド動画を生成する。Apache 2.0ライセンス、7言語対応、H100 1枚で5秒動画を2秒で生成。

MagiHumanは本当にオープンソース?

はい。ベースモデル、蒸留モデル、超解像モデル、推論コードの完全スタックがGitHubとHugging FaceでApache 2.0のもとで公開されている。

MagiHumanはどれくらい速い?

H100 GPU 1枚で、5秒の256p動画が2秒、540pが8秒、1080pが38.4秒で生成できる。

MagiHumanと商用モデルの比較は?

Ovi 1.1との人間評価で80%、LTX 2.3との比較で60.9%の勝率を達成。単語誤り率(14.60%)はOvi 1.1(40.45%)の約3倍優れている。

MagiHumanは商用利用できる?

はい。Apache 2.0は制限なしの商用利用、改変、配布を認めている。

クローズドなデジタルヒューマンプラットフォームすべてが警戒すべきオープンソースモデル

daVinci-MagiHumanはオープンソースがプロプライエタリに勝てることを——説得力をもって——証明した。150億パラメーター、2秒の生成、商用代替品に対する80%の勝率、そして完全無料。デジタルヒューマン空間はもはや以前と同じではない。