Muse Spark vs Llama 4:Meta 的战略转变

Meta 从开放权重的 Llama 转向了封闭的 Muse Spark。发生了什么变化、这对开发者意味着什么,以及未来版本开源是否现实。

By Dora 3 min read
Muse Spark vs Llama 4:Meta 的战略转变

Meta 刚刚发布了一个全新的模型系列。 如果你在过去一年里基于 Llama 4 构建过任何东西,你可能正在思考是继续坚持,还是开始规划迁移。

我是 Dora。昨天我花了大量时间阅读 Meta 发布的所有文档,对照第三方基准测试,试图搞清楚这对于在技术栈中使用 Llama 的人究竟意味着什么。本文将梳理哪些改变了,哪些没变,以及开发者现在处于什么处境。

Llama 4 与 Muse Spark 之间的变化

架构:九个月,从零开始

Meta Superintelligence Labs——这个部门于 2025 年中期 Alexandr Wang 以首席 AI 官身份加入后成立——从头重建了整个 AI 技术栈。全新的基础设施、全新的架构、全新的数据管道。这不是营销文案,而是 Meta 官方技术博客所述的内容。Muse Spark 是该重建计划发布的第一个模型。

Llama 4 采用了混合专家(Mixture-of-Experts)架构,并开放权重。而 Muse Spark 是一个原生多模态推理模型——这意味着视觉能力不是事后附加的,而是从一开始就集成进去的。它支持工具调用、视觉思维链和多智能体编排。Llama 4 没有任何这些原生能力。

该模型还引入了分层推理模式:用于日常查询的”即时”模式、用于逐步推理的”思考”模式,以及并行运行多个子智能体的”深思”模式。最后这个是 Meta 对标 Gemini Deep Think 和 GPT Pro 扩展推理的答案。

效率:Meta 的声明,而非独立结论

Meta 表示,Muse Spark 达到了 Llama 4 Maverick 级别的能力,但计算量减少了十倍以上。他们描述的机制是”思维压缩”——在强化学习过程中,模型因过度思考而受到惩罚,从而被迫以更少的 token 进行推理,同时不损失准确性。

我需要在此明确:这是 Meta 的声明,尚未经过独立验证。来自 Artificial Analysis 的 token 效率数据确实显示,Muse Spark 运行完整 Intelligence Index 使用了 5800 万个输出 token——与 Gemini 3.1 Pro 的 5700 万相当,远低于 Claude Opus 4.6 的 1.57 亿或 GPT-5.4 的 1.2 亿。因此,效率方面的说法至少在输出侧有一定的独立支撑。

基准分数差距:18 分到 52 分

根据 Artificial Analysis 的数据,Llama 4 Maverick 发布时在 Intelligence Index 上得分为 18。Muse Spark 得分为 52,总排名第四——落后于 Gemini 3.1 Pro Preview 和 GPT-5.4(均为 57 分)以及 Claude Opus 4.6(53 分)。

有一个重要说明:Artificial Analysis 是通过 Meta 的早期访问渠道对模型进行基准测试的。他们的评估是独立进行的,但访问本身来自 Meta。这些还不是完全中立的公开基准测试。这些分数有方向性参考价值,但不可奉为圭臬。

Muse Spark 领先的领域:健康基准(HealthBench Hard 得分 42.8,领先 GPT-5.4 的 40.1)、视觉推理(MMMU-Pro 得分 80.5%,仅次于 Gemini 3.1 Pro)和图表理解。

落后的领域:编程(Terminal-Bench Hard,落后于 Claude Sonnet 4.6 和 GPT-5.4)、智能体任务(GDPval-AA 1,427 ELO,对比 GPT-5.4 的 1,676)和抽象推理(ARC-AGI-2 得分 42.5,对比顶级竞争对手的 76+)。Meta 在其技术博客中明确承认了这些差距,表示将继续投资于”长周期智能体系统和编程工作流”。

开放与封闭的转变

Llama 的模式:开放权重,社区生态

Llama 的价值主张非常直接:下载权重,在自己的硬件上运行,针对你的用例进行微调,只需支付计算成本。开放权重的方式建立了一个生态系统——Hugging Face 上数千个微调变体、初创企业和大型企业的自托管部署,以及整个围绕量化模型在消费级 GPU 上运行的周边产业。Llama 4 Scout 可以在单张 H100 上运行,Maverick 经量化后可在 RTX 5090 上运行。

这个生态系统仍然存在,那些模型也没有被下架。

Muse Spark 的模式:封闭,仅限 API 私测

Muse Spark 是专有模型,没有可下载的权重, 也不支持自托管。目前它为 Meta 旗下应用中的 Meta AI 提供支持——Meta AI 网站,以及即将到来的 WhatsApp、Instagram、Facebook、Messenger 和 Ray-Ban AI 眼镜。外部开发者可以申请私有 API 预览访问。仅此而已。

这比 OpenAI 或 Anthropic 的模型限制更严——后者至少提供公开的 API 访问。正如 《财富》杂志在报道中指出的,Muse Spark “比 Meta 竞争对手提供的付费专有模型更为封闭”。

“我们希望开源未来版本”

Meta 的博客文章中包含这句话。Zuckerberg 在 Threads 上写道,计划发布”越来越先进的模型,推动智能与能力的前沿,包括新的开源模型”。Wang 也在 X 上提到了对未来版本进行开源的计划。

没有时间表,没有关于哪个模型或何时开源的具体承诺,也没有迹象表明”未来版本”是指 Muse Spark 本身最终会被开放,还是会有一个单独的开放权重分支并行推进。

对比 Zuckerberg 2024 年那篇题为《开源 AI 是前进之路》的宣言——他在其中论证了开放 Llama 不会损害 Meta 的收入。那是十八个月前的事了,战略考量显然已经发生了转变。正如 The Next Web 的分析所言,这次封闭是一个信号:Meta 现在认为自己正处于一场竞赛之中,在这场竞赛中,拱手相让架构创新的代价已经超过了所能获得的收益。

这是我掌握的数据截止点。未来的 Muse 模型是否真的会开源,目前只是猜测。有了具体进展我会更新。

这对当前使用 Llama 的开发者意味着什么

自托管 Llama:仍然可行,尚未弃用

当 VentureBeat 直接询问 Meta Llama 的开发是否已终止时,发言人表示:“我们当前的 Llama 模型将继续作为开源提供。“这句话措辞谨慎,确认了现有模型仍然可用,但对未来的 Llama 开发只字未提。

如果你今天在生产环境中运行 Llama 4 Scout 或 Maverick,运营层面什么都没有变。权重仍在 Hugging Face 上,社区微调版本仍然可用,你的基础设施不需要迁移。

操作层面的权衡:现在 vs. 等待

实际情况是这样的:如果你已经有一套运行良好的 Llama 部署——推理管道已调优、成本可预测、团队熟悉相关参数——那你手里有的是一个已知量。Muse Spark API 的定价尚未公布,公开 API 访问也尚未宣布,私有预览目前仅限受邀者。

从自托管开放权重模型切换到封闭 API,意味着放弃对延迟、正常运行时间、成本结构和数据处理的控制权。对某些团队来说这种权衡是合理的,对另一些则不然。关键在于,你现在甚至无法评估这个权衡,因为 Muse Spark 的 API 条款尚未公开。

编程工作流:已被承认的差距

如果你的 Llama 部署用于代码生成、代码审查或任何面向开发者的任务,现在没有理由关注 Muse Spark。Meta 自己也承认了——编程是当前的弱项。在 Terminal-Bench Hard 上,Muse Spark 落后于 Claude Sonnet 4.6 和 GPT-5.4。在 衡量真实工作任务的 GDPval-AA 上,它得分 1,427 ELO,而 Claude Sonnet 4.6 为 1,648。

这与我的使用频率吻合,你的可能有所不同。但数据在这一点上是清晰的。

Meta 为何做出这一转变

Llama 4:被承认的失误

Llama 4 于 2025 年 4 月发布,反响褒贬不一。基准测试争议——Meta 使用了一个专门的、未发布的”实验性聊天版本”来提升在 LMArena 上的分数——损害了其公信力。模型本身对于其参数规模来说表现尚可,但并没有推动技术前沿。到 2025 年年中,主流看法是 Meta 已经落后于 OpenAI、Anthropic 和 Google。

Wang 的使命

2025 年 6 月,Meta 斥资 143 亿美元收购了 Scale AI 49% 的无投票权股份,并引进联合创始人 Alexandr Wang 担任首席 AI 官。使命明确:迎头赶上。Meta Superintelligence Labs 随之成立,研究人员从 OpenAI、Anthropic 和 Google 被招募而来,据报道包含股权在内的薪酬方案高达数亿美元。

九个月后,Muse Spark 是第一个成果。它是否值回这笔投资,取决于接下来会发生什么——这个模型是刻意设计得小巧而快速的,更大的版本已在开发之中。

竞争压力

算术很简单。OpenAI 和 Anthropic 合计估值超过 1 万亿美元,Google 的 Gemini 在消费者和开发者市场均获得了广泛认可。Meta 在 2025 年投入了 720 亿美元的 AI 基础设施支出,2026 年的指引更是高达 1150 亿至 1350 亿美元,却没有一个能与前沿竞争的模型可以拿出手。必须做出改变。

开发者决策框架

继续使用 Llama 的情况:

你需要开放权重——用于自托管、微调、本地合规或成本控制。你正在运行以编程为主的工作流,而 Muse Spark 在这方面存在已被承认的差距。你需要可预测的、自管理的基础设施,不依赖私有 API 等待名单。你已经在 Llama 专属工具链上有大量投入(量化管道、LoRA 适配器、自定义评估)。

关注 Muse Spark 的情况:

你在 Meta 的产品生态系统内构建——任何与 Instagram、WhatsApp、Facebook 或 Messenger 集成的应用。你需要强大的多模态理解能力,尤其是视觉推理或健康相关任务。你愿意等待公开 API 访问,并能在定价和条款公布后再进行评估。

两者均不覆盖的情况:

图像生成和视频生成。这些是独立的模型类别。Muse Spark 仅支持文本输出,Llama 4 也仅支持文本输出。如果你需要生成能力,需要寻找完全不同的工具。

常见问题

Muse Spark 发布后我还能继续使用 Llama 4 吗?

可以。Llama 4 Scout 和 Maverick 仍可在 Hugging Face 和 Meta 的 API 合作伙伴处获取,没有任何模型被弃用或下架。

Meta 会发布 Muse Spark 的权重吗?

Meta 表示”希望对未来版本的模型进行开源”。没有时间表,没有关于 Muse Spark 本身的具体承诺,也没有迹象表明”未来版本”在实践中意味着什么。将其视为愿景,而非计划。

Muse Spark 在编程方面比 Llama 4 更好吗?

不。Meta 明确承认编程是当前的差距所在。在编程专项基准测试上,Muse Spark 落后于 Claude Sonnet 4.6 和 GPT-5.4。如果编程是你的主要使用场景,今天更好的选择是经过微调的 Llama 4 Maverick 或专为编程设计的模型。

下一个 Muse 模型什么时候发布?

Meta 将 Muse Spark 描述为”第一步”,“更大的模型已在开发中”。没有日期、没有名称、没有规格,只是确认它们的存在。

这对更广泛的开源 AI 生态系统有影响吗?

这是一个信号,而非致命打击。Meta 的开放权重 Llama 模型仍然可用。其他组织——Mistral、DeepSeek、阿里巴巴的 Qwen——继续发布开放模型。但 Meta 曾是开放权重前沿模型最大的企业支持者。如果他们的前沿投资永久性地转向封闭模型,这个生态系统将失去其资金最雄厚的贡献者。这种影响在数年维度上才会显现,而非数周之内。

以上就是目前的全部内容。API 公开后会有更多更新。

往期文章: