Magi-1 現已在 WaveSpeedAI 上線：開源視頻生成的新基準

由 Sand AI 開發的革命性開源視頻生成模型 Magi-1 現已在 WaveSpeedAI 上線，可用於實時推理和 API 部署。

這個備受好評的發佈推進了視頻生成的前沿，結合了最先進的動作品質、時間一致性和視覺保真度——提供了一個強大的開源替代方案，可與專有系統相媲美。

什麼是 Magi-1？

Magi-1 是一個大規模的基於擴散的視頻生成模型，旨在從文本提示生成逼真、連貫的視頻，支持長達 4 秒的幀長度和高解析度。由 Sand AI 開發並在開源許可證下發佈，它旨在以與或超越領先閉源模型相當的性能來民主化視頻合成。

其訓練策略融合了掩蔽視頻建模、時空一致性學習和多模態對齐，使其在保持身份、結構和場景邏輯的時間連貫性方面特別強大。

擴散視頻生成基於去噪擴散概率模型構建，Magi-1 通過逐步將噪聲向量序列精煉為逼真動作來生成視頻。這種方法允許對動作動態和幀連貫性進行異常控制。

與典型的短序列模型（如 2 秒）不同，Magi-1 可生成長達 64 幀（約 4 秒）的視頻，同時保持一致的角色身份、背景和動作流。

該模型在渲染詳細場景、捕捉細粒度紋理、物體交互和逼真人體姿態方面表現出色。

Magi-1 支持文本到視頻（T2V）生成，具有跨空間和時間維度的對齐，使提示驅動的視頻創建更加精確和可靠。

在公開評估中，Magi-1 在 FVD（Fréchet 視頻距離）、人類偏好和身份一致性等關鍵指標上超越了所有測試的開源模型。請參見下面的基準表。

模型	FVD ↓ (16f)	FVD ↓ (64f)	CLIP-S ↑	人類偏好 ↑
Magi-1	190.5	274.8	0.321	42.1%
Stable Video Diffusion (SVD)	307.9	489.2	0.313	21.4%
Gen-2 (Runway)	208.4	300.6	0.317	36.5%
Pika-LLaVA	310.3	498.7	0.307	18.6%

注：較低的 FVD 更優。較高的 CLIP-S 和偏好分數表示更高的保真度和用戶滿意度。

無論您是在構建生成工具、創意平台還是實驗性媒體，Magi-1 都能實現：

Magi-1 現已完全集成到 WaveSpeedAI 的推理引擎中，針對通過 UI 或 API 進行響應式視頻生成進行了優化。

Magi-1 的發佈是開源視頻領域向前邁進的重大步驟。它表明高保真、動作一致的視頻生成不再被專有系統所限制。

WaveSpeedAI 很榮幸在我們的平台上發佈了這一里程碑，幫助將下一代生成視頻帶給全球創意工作者、研究人員和開發者社區。