← 部落格

daVinci-MagiHuman:碾壓所有數位人生成器的開源模型

daVinci-MagiHuman 是一個 150 億參數的開源模型,能在單張 H100 上以 2 秒生成口型同步的說話人頭影片。勝率優於 Ovi 1.1(勝率 80%)與 LTX 2.3(勝率 60.9%),採用 Apache 2.0 授權,支援多語言,速度極快。

2 min read
daVinci-MagiHuman:碾壓所有數位人生成器的開源模型

daVinci-MagiHuman:開源、150億參數,且已全面超越所有閉源模型

數位人領域剛剛被顛覆——而這次,顛覆來自開源。daVinci-MagiHuman 由 Sand.ai 與 SII GAIR Lab 聯合開發,是一個擁有 150 億參數的模型,能在單張 H100 GPU 上以 2 秒生成帶有同步音訊的對口型說話人視頻。且完全以 Apache 2.0 授權開源。

在人類評估中,它在對戰 Ovi 1.1 的比較中贏得 80%,對戰 LTX 2.3 則贏得 60.9%——兩者皆是同類中最具競爭力的模型。其字詞錯誤率僅 14.60%,遠遠碾壓 Ovi 1.1 的 40.45%。這不是漸進式的改進,而是跨世代的躍升,且任何人都可以使用。

為何 daVinci-MagiHuman 如此重要

真正做對的開源

完整技術棧以 Apache 2.0 授權開源——這是最寬鬆的商業授權:

  • 基礎模型權重
  • 精煉模型(8 步去噪,無需分類器自由引導)
  • 超解析度模型
  • 完整推理程式碼
  • Docker 與 conda 部署設定檔

這意味著任何公司、開發者或研究人員都可以下載、部署、修改並商業化 MagiHuman,不受任何限制。無 API 依賴、無廠商綁定、無使用費用。

改變遊戲規則的速度

解析度時間(單張 H100)
256p(5 秒影片)2 秒
540p(5 秒影片)8 秒
1080p(5 秒影片)38.4 秒

5 秒的對口型視頻在 2 秒內生成完畢。這比大多數圖像生成器還快。這種速度開啟了以往不可能實現的應用場景——即時數位虛擬人、即時內容生成、互動式角色。

架構:化簡為繁的超能力

其他模型堆疊複雜度——交叉注意力層、獨立的模態融合模塊、多編碼器管線——而 MagiHuman 採取了截然相反的方式。文字、視頻與音訊 token 被簡單地拼接成單一序列,並透過僅使用自注意力的統一 Transformer 進行處理。

40 層架構採用「三明治佈局」:前後各 4 層具有模態專屬的投影,中間 32 層則跨所有模態共享權重。模型在聯合去噪過程中直接學習對口型對齊——無需獨立的同步模塊。

這種簡潔性不是限制,而是優勢。更少的組件意味著更快的推理速度、更容易部署,以及更可預測的行為。

daVinci-MagiHuman 與競品的比較

指標daVinci-MagiHumanOvi 1.1LTX 2.3
人類偏好(勝率)基準MagiHuman 勝 80%MagiHuman 勝 60.9%
字詞錯誤率14.60%40.45%
開源Apache 2.0私有開放權重
參數量150B
速度(256p,5 秒,H100)2 秒
多語言支援7 種語言有限有限

語言支援

MagiHuman 支援 7 種語言的語音生成:中文(普通話與粵語)、英語、日語、韓語、德語及法語。大多數競爭模型僅支援英語,或英語加中文。

你能用 MagiHuman 打造什麼

數位虛擬人與虛擬主播

為客服機器人、虛擬助理、線上教學講師及企業溝通生成逼真的說話人視頻。2 秒的生成時間使接近即時的應用成為可能。

大規模內容本地化

以一種語言錄製內容,再生成 7 種語言的對口型版本。該模型能以自然音訊與精準的唇語同步處理多語言語音。

互動式娛樂

打造以角色為核心的體驗——遊戲、視覺小說、互動式敘事——讓富有表情的數位人能即時說話、表達情感並做出反應。

行銷與廣告

無需雇用演員或租借攝影棚,即可生成帶有真人說話主播的個人化視頻廣告。從單一版本擴展至數千個本地化變體。

播客與視頻內容

將文字腳本轉化為帶有同步音訊的說話人視頻。創作者無需出現在鏡頭前,即可從書面內容製作視頻。

WaveSpeedAI 方面呢?

MagiHuman 是一個可自行托管的開源模型。但如果你不想管理 H100 基礎設施,WaveSpeedAI 已透過 API 提供生產就緒的數位人與對口型模型

當 MagiHuman 在 WaveSpeedAI 上線後,你將能透過相同的 API 存取它——無需管理任何基礎設施。敬請期待。

在 WaveSpeedAI 探索數位人模型 →

常見問題

什麼是 daVinci-MagiHuman?

由 Sand.ai 與 GAIR Lab 開發的 150 億參數開源模型,能生成帶有同步音訊的對口型說話人視頻。以 Apache 2.0 授權,支援 7 種語言,可在單張 H100 上以 2 秒生成 5 秒視頻。

MagiHuman 真的是開源的嗎?

是的。完整技術棧——基礎模型、精煉模型、超解析度模型及推理程式碼——已在 GitHub 和 Hugging Face 上以 Apache 2.0 授權釋出。

MagiHuman 有多快?

5 秒的 256p 視頻需 2 秒,540p 需 8 秒,1080p 需 38.4 秒——全部在單張 H100 GPU 上完成。

MagiHuman 與商業模型相比如何?

在對戰 Ovi 1.1 的人類評估中勝率達 80%,對戰 LTX 2.3 則為 60.9%。其字詞錯誤率(14.60%)比 Ovi 1.1(40.45%)優秀近 3 倍。

我可以將 MagiHuman 用於商業用途嗎?

可以。Apache 2.0 允許不受限制的商業使用、修改與分發。

這個開源模型應讓所有閉源數位人平台感到憂慮

daVinci-MagiHuman 證明了開源可以令人信服地擊敗私有模型。150 億參數、2 秒生成、對商業替代方案 80% 的勝率,且完全免費使用。數位人領域將永遠不再相同。