daVinci MagiHuman Text-to-Video 現已登陸WaveSpeedAI

daVinci MagiHuman 文字生成影片現已登陸WaveSpeedAI：僅憑文字描述即可生成以人物為核心的影片

無需參考圖片。只需描述場景、角色、動作和氛圍——daVinci MagiHuman 文字生成影片即可透過純文字提示詞，搭配可選的音訊同步功能，生成以人物為核心的電影級影片。

MagiHuman 文字生成影片採用相同的150億參數開源架構，在人工評估中以80%的勝率輾壓商業競爭對手（對比 Ovi 1.1），專為逼真的人體動作、富有表情的臉部表演及自然的肢體動態而打造。現已透過 REST API 在 WaveSpeedAI 正式上線。

daVinci MagiHuman 文字生成影片的運作原理

用自然語言描述您的場景——角色、場景設定、鏡頭運動、燈光、氛圍——MagiHuman 即可生成將您的描述栩栩如生呈現的影片。該模型的單流 Transformer 架構以統一序列處理文字、影片和音訊標記，生成具有同步動作的連貫人物中心影片。

MagiHuman 與一般文字生成影片模型的差異在於其針對人物主體的最佳化。其他模型將人物僅視為場景中的普通物件，而 MagiHuman 能以更深入的層次理解臉部表情、語音表情協調、逼真的肢體運動學及自然的手勢動態，使生成的人物看起來真實而生動。

加入可選的音軌後，模型會將生成的影片與音樂或語音同步——節奏匹配的動作、表情變化和自然的表演能量。

daVinci MagiHuman 文字生成影片的主要功能

以人物為核心的卓越表現：專為逼真的人體動作、臉部表情和肢體動態打造——而非通用模型的附加功能。
150億參數開源架構：同款模型架構達成14.60% WER（對比 Ovi 1.1 的40.45%）及人工評估80%勝率。Apache 2.0 授權。
音訊引導生成：上傳音樂或語音音訊，模型即可生成與音訊同步的影片——口型同步、表情和肢體動作全面匹配。
最高1080p，5至10秒時長：以256p快速迭代，720p用於正式輸出，1080p呈現頂級畫質。時長可以1秒為單位調整。
雙重寬高比：16:9 用於電影橫向構圖，9:16 用於社群媒體垂直構圖——原生支援各大平台。
內建提示詞增強器：自動優化您的文字描述，以獲得更佳的場景構圖和視覺品質。
可重現的結果：種子參數可在特定創作方向上進行一致的迭代。

daVinci MagiHuman 文字生成影片的最佳使用場景

電影級角色場景

描述角色、所處環境及鏡頭運動——MagiHuman 即可生成具有自然人物表演的電影場景。「一位身穿風衣的女性在深夜的東京小巷雨中行走，手持攝影機拍攝，溫暖的霓虹倒影，淺景深。」

音訊同步音樂影片

上傳音樂並描述視覺概念。MagiHuman 生成的影片中，角色動作、表情和能量均與節拍同步——在單次 API 呼叫中完成整個 MV 製作流程。

大規模社群媒體內容

為 TikTok、Instagram Reels 和 YouTube Shorts 生成直向（9:16）的角色驅動內容。描述場景，獲得影片，即可發布。將內容產量從每天一支擴展至數十支。

虛擬代言人生成

無需參考照片，僅憑文字描述即可創建說話的人物影片。描述代言人的外貌、場景設定和表達風格——MagiHuman 生成完整影片。加入音訊即可實現口型同步語音。

故事板與前期視覺化

導演和製片人可從劇本描述生成場景預覽，在確定選角、場地或製作設計決策前，預先看到場景動態呈現的效果。

廣告創意測試

從文字描述生成多支廣告概念影片，每支採用不同的角色、場景和氛圍。在投入完整製作之前，先測試哪個創意方向最具共鳴。

daVinci MagiHuman 文字生成影片定價與 API 存取

時長	256p	720p	1080p
5秒	$0.15	$0.20	$0.25
7秒	$0.21	$0.28	$0.35
10秒	$0.30	$0.40	$0.50

按秒計費：$0.03（256p）、$0.04（720p）、$0.05（1080p）。

如需使用參考照片進行圖片引導生成，請使用 daVinci MagiHuman 圖片生成影片。

為何選擇 WaveSpeedAI？

無冷啟動：影片生成即刻開始
簡易 REST API：文字提示詞 + 可選音訊 = 電影級影片
按需付費：按秒計費，無需訂閱
完整 MagiHuman 套件：文字生成影片和圖片生成影片均在同一平台上提供

daVinci MagiHuman 文字生成影片的最佳使用技巧

撰寫詳細的提示詞——包含角色描述、場景設定、燈光、鏡頭運動和氛圍，以獲得最具電影感的效果
指定鏡頭語言：「追蹤鏡頭」、「特寫」、「滑動變焦」、「空拍視角」、「背景虛化」
先以256p進行測試（$0.03/秒），再以1080p渲染
音軌能大幅提升效果——即使是環境音樂也能顯著改善動作品質和節奏感
近距離人物內容使用9:16，場景驅動的電影鏡頭使用16:9
找到滿意的結果後鎖定種子值，再對提示詞進行迭代

常見問題

什麼是 daVinci MagiHuman 文字生成影片？

一個150億參數的開源影片生成模型，針對以人物為核心的內容進行最佳化。可從文字提示詞生成電影級影片，支援可選的音訊同步，最高支援1080p畫質及10秒時長。

它與其他文字生成影片模型有何不同？

MagiHuman 專為人物主體打造——逼真的臉部表情、自然的肢體動作以及語音表情協調，是通用模型無法比擬的。

費用是多少？

根據解析度，每秒收費$0.03至$0.05。5秒720p影片費用為$0.20。

我可以加入音訊嗎？

可以。上傳音樂或語音音訊，模型即可將生成的影片與音訊同步——口型動作、表情和肢體動作全面匹配。

這與開源的 daVinci-MagiHuman 有關聯嗎？

是的。相同的150億參數架構，Apache 2.0 授權。在 WaveSpeedAI 上，您可以即時存取 API，無需自行管理 GPU 基礎設施。

它與 WAN 2.5 相比如何？

MagiHuman 在影片生成品質方面被描述為「與 WAN 2.5 相當」，在以人物為核心的場景中尤具優勢——臉部表演、口型同步及肢體動態。

以人物為核心的影片生成，從文字到螢幕

WaveSpeedAI 上的 daVinci MagiHuman 文字生成影片，將150億參數開源基礎模型的強大能力帶給每一位創作者——僅憑一段文字提示詞，即可實現電影級人物表演、音訊同步和逼真動作。

立即試用 daVinci MagiHuman 文字生成影片 →