Muse Spark vs Llama 4：Meta 的战略转变

Meta 刚刚发布了一个全新的模型系列。 如果你在过去一年里基于 Llama 4 构建过任何东西，你可能正在思考是继续坚持，还是开始规划迁移。

我是 Dora。昨天我花了大量时间阅读 Meta 发布的所有文档，对照第三方基准测试，试图搞清楚这对于在技术栈中使用 Llama 的人究竟意味着什么。本文将梳理哪些改变了，哪些没变，以及开发者现在处于什么处境。

Llama 4 与 Muse Spark 之间的变化

架构：九个月，从零开始

Meta Superintelligence Labs——这个部门于 2025 年中期 Alexandr Wang 以首席 AI 官身份加入后成立——从头重建了整个 AI 技术栈。全新的基础设施、全新的架构、全新的数据管道。这不是营销文案，而是 Meta 官方技术博客所述的内容。Muse Spark 是该重建计划发布的第一个模型。

Llama 4 采用了混合专家（Mixture-of-Experts）架构，并开放权重。而 Muse Spark 是一个原生多模态推理模型——这意味着视觉能力不是事后附加的，而是从一开始就集成进去的。它支持工具调用、视觉思维链和多智能体编排。Llama 4 没有任何这些原生能力。

该模型还引入了分层推理模式：用于日常查询的”即时”模式、用于逐步推理的”思考”模式，以及并行运行多个子智能体的”深思”模式。最后这个是 Meta 对标 Gemini Deep Think 和 GPT Pro 扩展推理的答案。

效率：Meta 的声明，而非独立结论

Meta 表示，Muse Spark 达到了 Llama 4 Maverick 级别的能力，但计算量减少了十倍以上。他们描述的机制是”思维压缩”——在强化学习过程中，模型因过度思考而受到惩罚，从而被迫以更少的 token 进行推理，同时不损失准确性。

我需要在此明确：这是 Meta 的声明，尚未经过独立验证。来自 Artificial Analysis 的 token 效率数据确实显示，Muse Spark 运行完整 Intelligence Index 使用了 5800 万个输出 token——与 Gemini 3.1 Pro 的 5700 万相当，远低于 Claude Opus 4.6 的 1.57 亿或 GPT-5.4 的 1.2 亿。因此，效率方面的说法至少在输出侧有一定的独立支撑。

基准分数差距：18 分到 52 分

根据 Artificial Analysis 的数据，Llama 4 Maverick 发布时在 Intelligence Index 上得分为 18。Muse Spark 得分为 52，总排名第四——落后于 Gemini 3.1 Pro Preview 和 GPT-5.4（均为 57 分）以及 Claude Opus 4.6（53 分）。

有一个重要说明：Artificial Analysis 是通过 Meta 的早期访问渠道对模型进行基准测试的。他们的评估是独立进行的，但访问本身来自 Meta。这些还不是完全中立的公开基准测试。这些分数有方向性参考价值，但不可奉为圭臬。

Muse Spark 领先的领域：健康基准（HealthBench Hard 得分 42.8，领先 GPT-5.4 的 40.1）、视觉推理（MMMU-Pro 得分 80.5%，仅次于 Gemini 3.1 Pro）和图表理解。

落后的领域：编程（Terminal-Bench Hard，落后于 Claude Sonnet 4.6 和 GPT-5.4）、智能体任务（GDPval-AA 1,427 ELO，对比 GPT-5.4 的 1,676）和抽象推理（ARC-AGI-2 得分 42.5，对比顶级竞争对手的 76+）。Meta 在其技术博客中明确承认了这些差距，表示将继续投资于”长周期智能体系统和编程工作流”。

开放与封闭的转变

Llama 的模式：开放权重，社区生态

Llama 的价值主张非常直接：下载权重，在自己的硬件上运行，针对你的用例进行微调，只需支付计算成本。开放权重的方式建立了一个生态系统——Hugging Face 上数千个微调变体、初创企业和大型企业的自托管部署，以及整个围绕量化模型在消费级 GPU 上运行的周边产业。Llama 4 Scout 可以在单张 H100 上运行，Maverick 经量化后可在 RTX 5090 上运行。

这个生态系统仍然存在，那些模型也没有被下架。

Muse Spark 的模式：封闭，仅限 API 私测

Muse Spark 是专有模型，没有可下载的权重， 也不支持自托管。目前它为 Meta 旗下应用中的 Meta AI 提供支持——Meta AI 网站，以及即将到来的 WhatsApp、Instagram、Facebook、Messenger 和 Ray-Ban AI 眼镜。外部开发者可以申请私有 API 预览访问。仅此而已。

这比 OpenAI 或 Anthropic 的模型限制更严——后者至少提供公开的 API 访问。正如《财富》杂志在报道中指出的，Muse Spark “比 Meta 竞争对手提供的付费专有模型更为封闭”。

“我们希望开源未来版本”

Meta 的博客文章中包含这句话。Zuckerberg 在 Threads 上写道，计划发布”越来越先进的模型，推动智能与能力的前沿，包括新的开源模型”。Wang 也在 X 上提到了对未来版本进行开源的计划。

没有时间表，没有关于哪个模型或何时开源的具体承诺，也没有迹象表明”未来版本”是指 Muse Spark 本身最终会被开放，还是会有一个单独的开放权重分支并行推进。

对比 Zuckerberg 2024 年那篇题为《开源 AI 是前进之路》的宣言——他在其中论证了开放 Llama 不会损害 Meta 的收入。那是十八个月前的事了，战略考量显然已经发生了转变。正如 The Next Web 的分析所言，这次封闭是一个信号：Meta 现在认为自己正处于一场竞赛之中，在这场竞赛中，拱手相让架构创新的代价已经超过了所能获得的收益。

这是我掌握的数据截止点。未来的 Muse 模型是否真的会开源，目前只是猜测。有了具体进展我会更新。

这对当前使用 Llama 的开发者意味着什么

自托管 Llama：仍然可行，尚未弃用

当 VentureBeat 直接询问 Meta Llama 的开发是否已终止时，发言人表示：“我们当前的 Llama 模型将继续作为开源提供。“这句话措辞谨慎，确认了现有模型仍然可用，但对未来的 Llama 开发只字未提。

如果你今天在生产环境中运行 Llama 4 Scout 或 Maverick，运营层面什么都没有变。权重仍在 Hugging Face 上，社区微调版本仍然可用，你的基础设施不需要迁移。

操作层面的权衡：现在 vs. 等待

实际情况是这样的：如果你已经有一套运行良好的 Llama 部署——推理管道已调优、成本可预测、团队熟悉相关参数——那你手里有的是一个已知量。Muse Spark API 的定价尚未公布，公开 API 访问也尚未宣布，私有预览目前仅限受邀者。

从自托管开放权重模型切换到封闭 API，意味着放弃对延迟、正常运行时间、成本结构和数据处理的控制权。对某些团队来说这种权衡是合理的，对另一些则不然。关键在于，你现在甚至无法评估这个权衡，因为 Muse Spark 的 API 条款尚未公开。

编程工作流：已被承认的差距

如果你的 Llama 部署用于代码生成、代码审查或任何面向开发者的任务，现在没有理由关注 Muse Spark。Meta 自己也承认了——编程是当前的弱项。在 Terminal-Bench Hard 上，Muse Spark 落后于 Claude Sonnet 4.6 和 GPT-5.4。在衡量真实工作任务的 GDPval-AA 上，它得分 1,427 ELO，而 Claude Sonnet 4.6 为 1,648。

这与我的使用频率吻合，你的可能有所不同。但数据在这一点上是清晰的。

Meta 为何做出这一转变

Llama 4：被承认的失误

Llama 4 于 2025 年 4 月发布，反响褒贬不一。基准测试争议——Meta 使用了一个专门的、未发布的”实验性聊天版本”来提升在 LMArena 上的分数——损害了其公信力。模型本身对于其参数规模来说表现尚可，但并没有推动技术前沿。到 2025 年年中，主流看法是 Meta 已经落后于 OpenAI、Anthropic 和 Google。

Wang 的使命

2025 年 6 月，Meta 斥资 143 亿美元收购了 Scale AI 49% 的无投票权股份，并引进联合创始人 Alexandr Wang 担任首席 AI 官。使命明确：迎头赶上。Meta Superintelligence Labs 随之成立，研究人员从 OpenAI、Anthropic 和 Google 被招募而来，据报道包含股权在内的薪酬方案高达数亿美元。

九个月后，Muse Spark 是第一个成果。它是否值回这笔投资，取决于接下来会发生什么——这个模型是刻意设计得小巧而快速的，更大的版本已在开发之中。

竞争压力

算术很简单。OpenAI 和 Anthropic 合计估值超过 1 万亿美元，Google 的 Gemini 在消费者和开发者市场均获得了广泛认可。Meta 在 2025 年投入了 720 亿美元的 AI 基础设施支出，2026 年的指引更是高达 1150 亿至 1350 亿美元，却没有一个能与前沿竞争的模型可以拿出手。必须做出改变。

开发者决策框架

继续使用 Llama 的情况：

你需要开放权重——用于自托管、微调、本地合规或成本控制。你正在运行以编程为主的工作流，而 Muse Spark 在这方面存在已被承认的差距。你需要可预测的、自管理的基础设施，不依赖私有 API 等待名单。你已经在 Llama 专属工具链上有大量投入（量化管道、LoRA 适配器、自定义评估）。

关注 Muse Spark 的情况：

你在 Meta 的产品生态系统内构建——任何与 Instagram、WhatsApp、Facebook 或 Messenger 集成的应用。你需要强大的多模态理解能力，尤其是视觉推理或健康相关任务。你愿意等待公开 API 访问，并能在定价和条款公布后再进行评估。

两者均不覆盖的情况：

图像生成和视频生成。这些是独立的模型类别。Muse Spark 仅支持文本输出，Llama 4 也仅支持文本输出。如果你需要生成能力，需要寻找完全不同的工具。

常见问题

Muse Spark 发布后我还能继续使用 Llama 4 吗？

可以。Llama 4 Scout 和 Maverick 仍可在 Hugging Face 和 Meta 的 API 合作伙伴处获取，没有任何模型被弃用或下架。

Meta 会发布 Muse Spark 的权重吗？

Meta 表示”希望对未来版本的模型进行开源”。没有时间表，没有关于 Muse Spark 本身的具体承诺，也没有迹象表明”未来版本”在实践中意味着什么。将其视为愿景，而非计划。

Muse Spark 在编程方面比 Llama 4 更好吗？

不。Meta 明确承认编程是当前的差距所在。在编程专项基准测试上，Muse Spark 落后于 Claude Sonnet 4.6 和 GPT-5.4。如果编程是你的主要使用场景，今天更好的选择是经过微调的 Llama 4 Maverick 或专为编程设计的模型。

下一个 Muse 模型什么时候发布？

Meta 将 Muse Spark 描述为”第一步”，“更大的模型已在开发中”。没有日期、没有名称、没有规格，只是确认它们的存在。

这对更广泛的开源 AI 生态系统有影响吗？

这是一个信号，而非致命打击。Meta 的开放权重 Llama 模型仍然可用。其他组织——Mistral、DeepSeek、阿里巴巴的 Qwen——继续发布开放模型。但 Meta 曾是开放权重前沿模型最大的企业支持者。如果他们的前沿投资永久性地转向封闭模型，这个生态系统将失去其资金最雄厚的贡献者。这种影响在数年维度上才会显现，而非数周之内。

以上就是目前的全部内容。API 公开后会有更多更新。

往期文章：