Muse Spark是什么?Meta的全新AI模型

Meta从其新成立的超级智能实验室发布了Muse Spark。以下是它的功能、已确认的信息以及开发者需要关注的内容。

By Dora 1 min read
Muse Spark是什么?Meta的全新AI模型

周二晚上,我同时开着四个标签页——那是我一个普通工作周里轮流使用的四个AI助手。周三早上醒来,信息流里多了一个新名字:Muse Spark。Meta的新模型,立即上线,由一个一年前还不存在的团队构建。

嗨,我是Dora!我的第一反应不是兴奋,而是:我需要开第五个标签页吗?这篇文章记录了我花了一天时间梳理已确认事实、信息空白,以及对任何正在AI之上构建产品的人而言真正重要的事情。

Muse Spark是什么——它从何而来

Meta Superintelligence Labs:由Alexandr Wang领导的新部门

Muse Spark是Meta Superintelligence Labs(MSL)推出的首款模型。MSL由Alexandr Wang领导,他在联合创办Scale AI后,于九个月前加入Meta。Meta创建这个实验室,是为了回应外界对其早期AI模型表现不佳的批评,CEO马克·扎克伯格随后从OpenAI、Anthropic和Google招募了大批AI研究人员。背后的投资规模不小——Meta斥资143亿美元收购Scale AI 49%的无投票权股份,以此将Wang聘为公司首位首席AI官。

Llama的问题:Meta为何从头重建

如果你关注过去年四月的Llama 4发布,你已经了解背景故事了。Llama 4遭到广泛批评,被认为是一次失败,Meta后来被曝出使用针对特定任务微调的专用未发布模型版本来虚报基准测试分数。这次公信力打击,正是Muse Spark试图做一切事情的背景。MSL在过去九个月里从头重建了Meta的AI技术栈,称这是他们有史以来运行速度最快的开发周期。

内部代号”Avocado”,历时9个月构建

内部代号为”Avocado”的Muse Spark,是Meta新Muse系列中的首款模型。Meta将其描述为刻意追求小巧和快速——其技术博客指出,改进的训练技术使他们能够以少一个数量级的算力,创建出与旧版中型Llama 4性能相当的更小模型。

这一效率主张值得关注。它关注的不是基准测试的绝对统治力,而是成本结构。

Muse Spark实际能做什么

即时模式与思考模式:各自的适用场景

Muse Spark运行在分层推理模式下。即时模式处理随意、快速的查询——那种你每天会向助手提出十次的问题。思考模式则为更复杂的任务添加逐步推理:法律文件分析、从照片中分解营养成分、多步骤数学问题。Meta AI应用的用户可以根据提示的复杂程度在模式之间切换。

多模态理解:图像、音频、文本输入 → 文本和交互式输出

该模型接受语音、文本和图像输入,但只输出文本。这是一个重要区别。这里的”多模态”指的是感知,而非生成。拍一张照片、说一个问题、粘贴一张截图——Muse Spark都能处理。但返回的是文本和交互式元素(网站、仪表板、游戏),而非图像或视频。

Meta为Muse Spark构建了强大的多模态感知能力,使助手能够看到并理解你正在看的内容,而不仅仅是阅读你输入的文字。他们的示例:拍摄机场小吃货架的照片,无需阅读标签即可获得按蛋白质排名的分类。

视觉STEM、视觉编程、小游戏:已确认的交互式输出能力

这是大多数报道低估的部分。Muse Spark可以直接从自然语言提示生成自定义交互式网站、仪表板和小游戏——Meta称之为”视觉编程”。他们的官方博客文章描述了用一句话构建复古街机游戏、飞行模拟器和派对策划仪表板。该模型还能处理视觉STEM问题,进而产生交互式体验,例如创建有趣的小游戏或排查家用电器故障。

这不是图像生成,而是带有视觉输出层的代码生成。不同的类别,不同的使用场景。

多子代理协调处理复杂请求

Muse Spark可以并行启动多个子代理来解决一个问题——例如,规划一次家庭旅行时,一个代理起草行程,另一个比较目的地,第三个寻找适合孩子的活动,全部同时进行。我自己还没有测试过。这个架构很有趣,但现实世界中的可靠性尚未经过验证。

沉思模式:已确认即将推出,无具体时间表

Meta计划推出”沉思”模式,允许模型通过协调一组AI代理进行并行推理来解决更复杂的问题(TechCrunch)。Wang在X上表示,沉思模式与Gemini Deep Think和GPT Pro等极限推理模型具有竞争力。目前没有公开时间表。Artificial Analysis基准数据显示,沉思模式在Humanity’s Last Exam上的早期得分为50.2%——但这是在Meta提供的条件下测试的,并非在规模上独立复现。

Muse Spark不是什么

不是独立的图像/视频生成模型

我想在这里直说,因为我已经在多篇文章中看到这种混淆。Muse Spark不生成图像或视频。 Meta AI应用中的Vibes AI视频功能目前使用来自Black Forest Labs等第三方的AI模型,Meta只计划让Muse Spark”最终”为其提供支持。截至发布时,如果你通过Meta AI生成视频,那不是Muse Spark在工作。

不是开放权重——有意从Llama策略转向

与Meta之前任何人都可以下载、修改和运行的开放权重Llama模型不同,Muse Spark是专有的。Meta表示他们”希望开源未来版本”,Axios报道称开源发布在计划中。但目前权重是封闭的。对于依托Llama开放性构建产品的团队来说,这是一个重大转变。

不是公共API(仅向特定合作伙伴提供私有预览)

Meta仅向特定合作伙伴提供Muse Spark的API私有预览。没有公共API定价,也没有宣布普遍访问的时间表。如果你是一个希望集成这个模型的开发者,你还需要等待。

今天在哪里可以使用

meta.ai和Meta AI应用:自2026年4月8日起上线

Muse Spark目前为Meta AI应用和meta.ai网站提供支持,随模型升级一同推出了新界面。所有模式均可免费使用,但Meta可能会施加速率限制。

WhatsApp、Instagram、Facebook、Messenger、AI眼镜:陆续推出

Muse Spark将在未来几周内陆续推出到WhatsApp、Instagram、Facebook、Messenger和AI眼镜。

API:仅向特定合作伙伴提供私有预览

无公开访问。无定价。我的数据到此为止。

性能背景

Artificial Analysis智能指数:52分

Muse Spark在Artificial Analysis智能指数上得分52,位列前五——落后于Gemini 3.1 Pro Preview(57分)、GPT-5.4(57分)和Claude Opus 4.6(53分)。重要说明:Artificial Analysis获得了Meta提供的早期访问权限,以独立对模型进行基准测试。独立,是的。但在Meta的条件和时间表下进行的。

作为参考,Meta进步了多少:Llama 4 Maverick和Scout在同一指数上分别得18分和13分。这是3倍的跃升。

一个引起我注意的数字:Muse Spark仅使用了5800万个输出token完成了完整评估,而Claude Opus 4.6使用了1.57亿个,GPT-5.4使用了1.2亿个。在这个规模上的token效率不是脚注——它是一个关于成本的故事。

Meta明确承认的当前差距

Meta公开承认在长周期智能体系统和编程工作流方面存在性能差距。VentureBeat分析证实了这一点:Muse Spark在Terminal-Bench等编程基准测试和智能体任务评估上明显落后。如果你的工作流以代码为主,这还不是你的模型。至少现在还不是。

隐私和数据注意事项

需要Meta账户登录

Muse Spark用户需要使用现有的Meta账户(如Facebook或Instagram)登录。没有匿名访问途径。

Meta的数据政策:用户须知

Axios指出,Meta的隐私政策对公司如何使用与其AI系统共享的任何数据几乎没有限制。Meta没有明确说明Facebook或Instagram账户中的个人信息将被AI使用,但这很可能发生,因为Meta通常会对公开用户数据进行训练,并将Muse Spark定位为个人超级智能产品。

如果你正在评估将其用于任何涉及敏感输入的工作流——客户数据、健康问题、内部文件——请在向那个输入框输入任何内容之前阅读Meta隐私政策。这不是警告,而是一个工作流步骤。

常见问题

Muse Spark是免费使用的吗?

是的。通过meta.ai和Meta AI应用,该模型的所有模式均可免费使用,但Meta可能会施加速率限制。

Muse Spark是开源的吗?

不是。Muse Spark是专有的,尽管Meta表达了”希望开源未来版本”的意愿。这是对Llama策略的背离。

Muse Spark可以生成图像或视频吗?

不能。Muse Spark处理文本、图像和语音输入,并生成文本和交互式输出(网站、小游戏、仪表板)。Vibes视频功能目前依赖来自Black Forest Labs的第三方模型。

Muse Spark API何时公开?

没有确认的日期。目前仅向特定合作伙伴提供私有预览。Meta表示有意提供更广泛的API访问,但尚未承诺具体时间表。

Muse Spark与GPT-5.4和Gemini相比如何?

在Artificial Analysis智能指数上,Muse Spark(52分)落后于GPT-5.4(57分)、Gemini 3.1 Pro(57分)和Claude Opus 4.6(53分)。它在健康基准测试和多模态视觉方面领先,但在编程和智能体任务上落后。比较完全取决于你的使用场景。

沉思模式公开可用后,我会持续关注其表现,以及API是否会以对第三方开发者真正可用的方式开放。目前,Muse Spark因其所传递的关于Meta方向的信号而令人关注——但对于大多数开发者工作流来说,还无法集成。这种情况可能很快改变,也可能不会。API开放后自己去测试,那会比我说的任何话都更有说服力。

往期文章: