daVinci-MagiHuman：碾壓所有數位人生成器的開源模型

daVinci-MagiHuman：開源、150億參數，且已全面超越所有閉源模型

數位人領域剛剛被顛覆——而這次，顛覆來自開源。daVinci-MagiHuman 由 Sand.ai 與 SII GAIR Lab 聯合開發，是一個擁有 150 億參數的模型，能在單張 H100 GPU 上以 2 秒生成帶有同步音訊的對口型說話人視頻。且完全以 Apache 2.0 授權開源。

在人類評估中，它在對戰 Ovi 1.1 的比較中贏得 80%，對戰 LTX 2.3 則贏得 60.9%——兩者皆是同類中最具競爭力的模型。其字詞錯誤率僅 14.60%，遠遠碾壓 Ovi 1.1 的 40.45%。這不是漸進式的改進，而是跨世代的躍升，且任何人都可以使用。

為何 daVinci-MagiHuman 如此重要

真正做對的開源

完整技術棧以 Apache 2.0 授權開源——這是最寬鬆的商業授權：

基礎模型權重
精煉模型（8 步去噪，無需分類器自由引導）
超解析度模型
完整推理程式碼
Docker 與 conda 部署設定檔

這意味著任何公司、開發者或研究人員都可以下載、部署、修改並商業化 MagiHuman，不受任何限制。無 API 依賴、無廠商綁定、無使用費用。

改變遊戲規則的速度

解析度	時間（單張 H100）
256p（5 秒影片）	2 秒
540p（5 秒影片）	8 秒
1080p（5 秒影片）	38.4 秒

5 秒的對口型視頻在 2 秒內生成完畢。這比大多數圖像生成器還快。這種速度開啟了以往不可能實現的應用場景——即時數位虛擬人、即時內容生成、互動式角色。

架構：化簡為繁的超能力

其他模型堆疊複雜度——交叉注意力層、獨立的模態融合模塊、多編碼器管線——而 MagiHuman 採取了截然相反的方式。文字、視頻與音訊 token 被簡單地拼接成單一序列，並透過僅使用自注意力的統一 Transformer 進行處理。

40 層架構採用「三明治佈局」：前後各 4 層具有模態專屬的投影，中間 32 層則跨所有模態共享權重。模型在聯合去噪過程中直接學習對口型對齊——無需獨立的同步模塊。

這種簡潔性不是限制，而是優勢。更少的組件意味著更快的推理速度、更容易部署，以及更可預測的行為。

daVinci-MagiHuman 與競品的比較

指標	daVinci-MagiHuman	Ovi 1.1	LTX 2.3
人類偏好（勝率）	基準	MagiHuman 勝 80%	MagiHuman 勝 60.9%
字詞錯誤率	14.60%	40.45%	—
開源	Apache 2.0	私有	開放權重
參數量	150B	—	—
速度（256p，5 秒，H100）	2 秒	—	—
多語言支援	7 種語言	有限	有限

語言支援

MagiHuman 支援 7 種語言的語音生成：中文（普通話與粵語）、英語、日語、韓語、德語及法語。大多數競爭模型僅支援英語，或英語加中文。

你能用 MagiHuman 打造什麼

數位虛擬人與虛擬主播

為客服機器人、虛擬助理、線上教學講師及企業溝通生成逼真的說話人視頻。2 秒的生成時間使接近即時的應用成為可能。

大規模內容本地化

以一種語言錄製內容，再生成 7 種語言的對口型版本。該模型能以自然音訊與精準的唇語同步處理多語言語音。

互動式娛樂

打造以角色為核心的體驗——遊戲、視覺小說、互動式敘事——讓富有表情的數位人能即時說話、表達情感並做出反應。

行銷與廣告

無需雇用演員或租借攝影棚，即可生成帶有真人說話主播的個人化視頻廣告。從單一版本擴展至數千個本地化變體。

播客與視頻內容

將文字腳本轉化為帶有同步音訊的說話人視頻。創作者無需出現在鏡頭前，即可從書面內容製作視頻。

WaveSpeedAI 方面呢？

MagiHuman 是一個可自行托管的開源模型。但如果你不想管理 H100 基礎設施，WaveSpeedAI 已透過 API 提供生產就緒的數位人與對口型模型：

InfiniteTalk Video-to-Video Multi — 多角色對口型，最長 10 分鐘，720p
InfiniteTalk Fast — 價格便宜 50%，處理速度更快
ByteDance OmniHuman 1.5 — 透過音訊與視覺線索進行虛擬人動畫
SkyReels Talking Avatar — 說話虛擬人生成

當 MagiHuman 在 WaveSpeedAI 上線後，你將能透過相同的 API 存取它——無需管理任何基礎設施。敬請期待。

在 WaveSpeedAI 探索數位人模型 →

常見問題

什麼是 daVinci-MagiHuman？

由 Sand.ai 與 GAIR Lab 開發的 150 億參數開源模型，能生成帶有同步音訊的對口型說話人視頻。以 Apache 2.0 授權，支援 7 種語言，可在單張 H100 上以 2 秒生成 5 秒視頻。

MagiHuman 真的是開源的嗎？

是的。完整技術棧——基礎模型、精煉模型、超解析度模型及推理程式碼——已在 GitHub 和 Hugging Face 上以 Apache 2.0 授權釋出。

MagiHuman 有多快？

5 秒的 256p 視頻需 2 秒，540p 需 8 秒，1080p 需 38.4 秒——全部在單張 H100 GPU 上完成。

MagiHuman 與商業模型相比如何？

在對戰 Ovi 1.1 的人類評估中勝率達 80%，對戰 LTX 2.3 則為 60.9%。其字詞錯誤率（14.60%）比 Ovi 1.1（40.45%）優秀近 3 倍。

我可以將 MagiHuman 用於商業用途嗎？

可以。Apache 2.0 允許不受限制的商業使用、修改與分發。

這個開源模型應讓所有閉源數位人平台感到憂慮

daVinci-MagiHuman 證明了開源可以令人信服地擊敗私有模型。150 億參數、2 秒生成、對商業替代方案 80% 的勝率，且完全免費使用。數位人領域將永遠不再相同。