Muse Spark vs Llama 4：Meta的戰略轉型

Meta 剛剛發布了一個新的模型系列。 如果你在過去一年裡基於 Llama 4 開發過任何東西，你可能正在想是否繼續使用它，還是開始規劃遷移。

我是 Dora。昨天我花時間閱讀了 Meta 發布的每一份文件，交叉比對了第三方基準測試，並試圖弄清楚這對在技術棧中使用 Llama 的人來說究竟意味著什麼。本文將拆解哪些改變了、哪些沒有改變，以及開發者目前的處境。

Llama 4 與 Muse Spark 之間的變化

架構：九個月，從頭開始

Meta 超智慧實驗室——這個部門是在 Alexandr Wang 於 2025 年中加入擔任首席 AI 官後組建的——從頭開始重建了整個 AI 技術棧。全新的基礎設施、全新的架構、全新的資料管道。這不是行銷話術；這是 Meta 自己的技術部落格所聲明的。Muse Spark 是這次重建所產出的第一個模型。

Llama 4 使用了混合專家（Mixture-of-Experts）架構並開放權重。Muse Spark 則是一個原生多模態推理模型——這意味著視覺能力不是後來拼湊上去的，而是從一開始就整合進去的。它支援工具使用、視覺思維鏈以及多代理編排。Llama 4 沒有任何這些作為原生能力。

該模型還引入了分層推理模式：Instant（即時）用於日常查詢，Thinking（思考）用於逐步推理，以及 Contemplating（沉思）模式，可以並行運行多個子代理。最後一個是 Meta 對 Gemini Deep Think 和 GPT Pro 擴展推理的回應。

效率：Meta 的聲稱，而非獨立結論

Meta 表示 Muse Spark 使用的計算量不到 Llama 4 Maverick 的十分之一就能達到同等能力。他們描述的機制是「思維壓縮」——在強化學習過程中，模型因過度思考時間而受到懲罰，迫使它以更少的 token 進行推理而不損失準確性。

我想在這裡說清楚：這是 Meta 的聲稱，尚未經過獨立驗證。來自 Artificial Analysis 的 token 效率數據確實顯示，Muse Spark 使用了 5800 萬個輸出 token 來運行其完整的 Intelligence Index——與 Gemini 3.1 Pro 的 5700 萬相當，遠低於 Claude Opus 4.6 的 1.57 億或 GPT-5.4 的 1.2 億。因此，效率方面的說法至少在輸出側有一些獨立支持。

基準差距：從 18 到 52

根據 Artificial Analysis 的數據，Llama 4 Maverick 在發布時的 Intelligence Index 得分為 18。Muse Spark 的得分為 52。這使其排名第四——落後於 Gemini 3.1 Pro Preview 和 GPT-5.4（均為 57）以及 Claude Opus 4.6（53）。

一個重要的注意事項：Artificial Analysis 獲得了 Meta 提供的早期存取權限以對模型進行基準測試。他們獨立進行了自己的評估，但存取權限本身來自 Meta。這些還不是完全中立的公開基準測試。這些分數在方向上有參考價值，但並非定論。

Muse Spark 領先的領域：健康基準測試（HealthBench Hard 得 42.8 分，領先 GPT-5.4 的 40.1）、視覺推理（MMMU-Pro 達 80.5%，僅次於 Gemini 3.1 Pro）以及圖表理解。

落後的領域：程式碼（Terminal-Bench Hard，落後於 Claude Sonnet 4.6 和 GPT-5.4）、代理任務（GDPval-AA 1,427 ELO 對比 GPT-5.4 的 1,676）以及抽象推理（ARC-AGI-2 得 42.5 分，對比頂尖競爭對手的 76 分以上）。Meta 在其技術部落格中明確承認了這些差距，表示他們將繼續投資「長視野代理系統和程式碼工作流程」。

開放與封閉的轉變

Llama 的模式：開放權重，社群生態系

Llama 的價值主張很直接。下載權重，在自己的硬體上運行，針對你的使用案例進行微調，只需支付算力費用。開放權重的方法建立了一個生態系——Hugging Face 上數千個微調變體、遍布新創公司和企業的自托管部署、整個量化模型在消費級 GPU 上運行的微型產業。Llama 4 Scout 可以在單張 H100 上運行。Maverick 通過量化可以在 RTX 5090 上運行。

那個生態系仍然存在。那些模型還沒有被撤除。

Muse Spark 的模式：封閉，僅限 API 私人預覽

Muse Spark 是專有的。沒有可下載的權重。 沒有自托管。目前它為 Meta 旗下應用程式的 Meta AI 提供支援——Meta AI 網站，以及即將上線的 WhatsApp、Instagram、Facebook、Messenger 和 Ray-Ban AI 眼鏡。外部開發者可以申請私人 API 預覽。僅此而已。

這比 OpenAI 或 Anthropic 的模型限制更多，後者至少提供公開的 API 存取。正如 Fortune 在其報導中指出的，Muse Spark「比 Meta 競爭對手提供的付費專有模型更具專有性」。

「我們希望未來版本能夠開源」

Meta 的部落格文章包含這句話。Zuckerberg 在 Threads 上寫道計畫發布「越來越先進的模型，推動智慧和能力的前沿，包括新的開源模型」。Wang 在 X 上提到未來版本的開源計畫。

沒有時間表。沒有關於哪個模型或何時的具體承諾。也沒有跡象表明「未來版本」是指 Muse Spark 本身最終會被開放，還是說一個獨立的開放權重分支會並行繼續。

與 Zuckerberg 2024 年題為《開源 AI 是前進之路》的宣言相比，他當時論證開放 Llama 不會損害 Meta 的收入。那是十八個月前的事了。戰略考量顯然已經改變。正如 The Next Web 的分析所指出的，這次封閉是一個信號，表明 Meta 現在認為自己身處一場競賽中，在這場競賽中，放棄架構創新的代價超過了所獲得的收益。

我的數據到此為止。未來的 Muse 模型是否真的會開放是猜測。有具體消息時我會更新。

這對目前使用 Llama 的開發者意味著什麼

自托管 Llama：仍然可行，未被棄用

當 VentureBeat 直接詢問 Meta Llama 開發是否已結束時，一位發言人表示：「我們目前的 Llama 模型將繼續以開源形式提供。」這句話措辭謹慎。它確認現有模型仍然可用。但對未來 Llama 開發隻字未提。

如果你今天在生產環境中運行 Llama 4 Scout 或 Maverick，操作層面上什麼都沒有改變。權重仍然在 Hugging Face 上。社群微調版本仍然有效。你的基礎設施不需要遷移。

操作上的權衡：現在 vs. 等待

實際情況是這樣的。如果你有一個運作正常的 Llama 部署——推理管道已調整、成本可預測、團隊熟悉各項參數——你擁有一個已知的量。Muse Spark API 的定價尚未公布。公開 API 存取尚未公布。私人預覽僅限受邀者。

從自托管的開放權重模型切換到封閉 API，意味著放棄對延遲、正常運行時間、成本結構和數據處理的控制。對某些團隊來說，這種權衡是合理的。對其他人來說則不然。問題在於你甚至還無法評估這種權衡，因為 Muse Spark 的 API 條款目前並不公開。

程式碼工作流程：已承認的差距

如果你的 Llama 部署處理程式碼生成、程式碼審查或任何面向開發者的任務，現在沒有理由考慮 Muse Spark。Meta 自己說了——程式碼是目前的弱點。在 Terminal-Bench Hard 上，Muse Spark 落後於 Claude Sonnet 4.6 和 GPT-5.4。在衡量真實工作任務的 GDPval-AA 上，它的 ELO 為 1,427，對比 Claude Sonnet 4.6 的 1,648。

這符合我的使用頻率。你的可能不同。但數據在這一點上是清晰的。

Meta 為什麼做出這個決定

Llama 4：已承認的挫折

Llama 4 於 2025 年 4 月發布，但反響褒貶不一。基準測試爭議——Meta 使用了一個專門的、未發布的「實驗性聊天版本」來提升 LMArena 的分數——損害了其公信力。模型本身對於其重量級別來說是穩健的，但並未推動前沿發展。到 2025 年中，普遍的看法是 Meta 已落後於 OpenAI、Anthropic 和 Google。

Wang 的使命

2025 年 6 月，Meta 花費 143 億美元收購了 Scale AI 49% 的非投票股份，並引入聯合創始人 Alexandr Wang 擔任首席 AI 官。使命明確：迎頭趕上。Meta 超智慧實驗室隨之成立。研究人員從 OpenAI、Anthropic 和 Google 招募而來，據報薪酬方案在包含股權的情況下達數億美元。

九個月後，Muse Spark 是第一個成果。它是否值得這筆投資，取決於接下來發生什麼——這個模型故意做得小而快，更大的版本已在開發中。

競爭壓力

數學很簡單。OpenAI 和 Anthropic 的合計估值超過 1 兆美元。Google 的 Gemini 在消費者和開發者市場都獲得了牽引力。Meta 在 2025 年在 AI 基礎設施上花費了 720 億美元，預計 2026 年將增至 1150 至 1350 億美元，卻沒有可與前沿競爭的模型可以展示。必須做出改變。

開發者的決策框架

繼續使用 Llama，如果：

你需要開放權重——用於自托管、微調、本地合規或成本控制。你正在運行程式碼密集型工作流程，而 Muse Spark 在這方面有已承認的差距。你需要可預測的、自管理的基礎設施，不依賴私人 API 候補名單。你已經在 Llama 特定工具鏈上進行了投資（量化管道、LoRA 適配器、自定義評估）。

關注 Muse Spark，如果：

你在 Meta 的產品生態系統內開發——任何與 Instagram、WhatsApp、Facebook 或 Messenger 整合的產品。你需要強大的多模態理解能力，特別是視覺推理或健康相關任務。你願意等待公開 API 存取，並可以在定價和條款確定後進行評估。

兩者都不涵蓋的：

圖像生成。視頻生成。這些是獨立的模型類別。Muse Spark 僅輸出文字，Llama 4 也是僅輸出文字。如果你需要生成能力，你需要考慮完全不同的工具。

常見問題

Muse Spark 發布後我還能繼續使用 Llama 4 嗎？

可以。Llama 4 Scout 和 Maverick 仍然可以在 Hugging Face 和 Meta 的 API 合作夥伴處獲取。沒有任何內容被棄用或撤除。

Meta 會發布 Muse Spark 的權重嗎？

Meta 表示它「希望未來版本的模型能夠開源」。沒有時間表，沒有關於 Muse Spark 本身的具體承諾，也沒有跡象表明「未來版本」在實踐中意味著什麼。將此視為願景，而非計畫。

Muse Spark 在程式碼方面比 Llama 4 更好嗎？

不。Meta 明確承認程式碼是目前的差距。在程式碼專項基準測試上，Muse Spark 落後於 Claude Sonnet 4.6 和 GPT-5.4。如果程式碼是你的主要使用案例，今天更好的選擇是帶有微調的 Llama 4 Maverick 或專為程式碼設計的模型。

下一個 Muse 模型何時發布？

Meta 將 Muse Spark 描述為「第一步」，並表示「更大的模型已在開發中」。沒有日期。沒有名稱。除了確認它們存在之外，沒有任何規格說明。

這對更廣泛的開源 AI 生態系統有影響嗎？

這是一個信號，而非致命打擊。Meta 的開放權重 Llama 模型仍然可用。其他組織——Mistral、DeepSeek、阿里巴巴的 Qwen——繼續發布開放模型。但 Meta 曾是開放權重前沿模型最大的單一企業支持者。如果他們的前沿投資永久轉向封閉模型，生態系統將失去其資金最雄厚的貢獻者。這在數年內才會顯現影響，而非數週之內。

就這些。等 API 公開後會有更多內容。

相關文章：