Glasswing计划：Anthropic为何限制Mythos的访问权限

我追踪 Anthropic 模型发布已经有一段时间了，4月7日的公告是第一个真正让我停下来重读两遍的。

不是因为 Claude Mythos Preview 有多”强大”——这个词已经被套在过去两年里每一次模型发布上了。而是因为 Anthropic 做了一件不寻常的事：他们开发出了一项能力，得出结论认为其风险过高不宜公开发布，随即构建了一个受限计划，专门在攻击者意识到自己落后之前，将该能力用于防御。这是一种不同寻常的操作。Project Glasswing 值得我们认真理解——不是作为一个公关故事，而是作为一个窗口，看清前沿 AI 治理实际上是如何演进的。

我是你的朋友 Dora。以下是已确认的内容、其含义，以及构建者应从中汲取的经验。

Project Glasswing 是什么

Anthropic 针对 Claude Mythos Preview 的受管访问计划

Project Glasswing 是 Anthropic 的计划，旨在将 Claude Mythos Preview——其迄今为止能力最强的模型——专门部署于防御性网络安全工作。该模型尚未公开发布。访问权限仅限于一组专门从事关键软件基础设施工作的精选机构。

Anthropic 公布的发布合作伙伴包括 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金会、Microsoft、NVIDIA 和 Palo Alto Networks。除上述命名合作伙伴外，Anthropic 还向 40 余家构建或维护关键软件基础设施的机构扩展了访问权限。

目的：让防御方抢先一步

Anthropic 使用的框架是明确的：让 AI 模型在错误的人手中变得危险的相同能力，对于发现和修复重要软件中的缺陷——以及开发安全漏洞少得多的新软件——同样弥足珍贵。

这就是整个核心论点。一个能够自主发现零日漏洞的模型，既是有史以来最强大的安全工具，也是有史以来最危险的进攻性能力之一。Project Glasswing 就是试图让防御方先行一步。

已经发现了什么

这不是推测。过去几周里，Anthropic 使用 Claude Mythos Preview 识别出了数千个零日漏洞——软件开发者此前未知的缺陷——其中许多是严重漏洞，覆盖每一个主流操作系统和主流网络浏览器，以及一系列其他重要软件。

Anthropic 前沿红队博客中有一个具体案例：Mythos Preview 完全自主地识别并利用了 FreeBSD 中一个存在 17 年之久的远程代码执行漏洞（CVE-2026-4747），该漏洞允许任何人在运行 NFS 的机器上获得 root 权限——起点是互联网上任意位置的未认证状态。在初始提示之后，没有任何人工参与。

90 天承诺

这是大多数报道淡化处理的细节。Anthropic 明确承诺：在 90 天内，他们将公开披露所学到的经验，以及可以公开的已修复漏洞和改进成果。这是一项有时限的公开承诺——不是含糊的”我们最终会分享经验”。这意味着到 2026 年 7 月初，应该会有一份关于该计划发现和修复内容的真实报告。

Anthropic 为何选择这种方式

两用困境，直白陈述

这是核心逻辑，值得认真思考。一个能够自主发现和利用软件漏洞的模型，不仅仅是一个强大的安全工具——它同时也是一个强大的攻击工具。这种能力本身并不附带意图检测器。广泛发布 Mythos Preview 意味着广泛释放破坏关键基础设施的能力。

这就是两用困境。不是 Anthropic 不信任开发者。而是一个能够串联零日漏洞并编写可用漏洞利用代码的广泛可用模型，会制造出任何负责任的行为者都无法忽视的风险——无论是谁在使用。Mythos Preview 的系统卡直接说明了这一点：“Claude Mythos Preview 能力的大幅提升使我们决定不将其公开发布。"

"惊人的能力”——这究竟意味着什么

Anthropic 在这里的措辞是刻意为之的。他们没有说 Mythos Preview”在安全任务上有增量式改进”。他们使用的词是”惊人的能力”。该模型能够独立完成复杂、有效的黑客任务——识别多个未公开漏洞、编写利用代码，并将这些串联起来突破复杂软件。

Mythos Preview 还实际上已经饱和了 Anthropic 用于追踪模型能力的现有内外部基准测试，这迫使他们转向针对全新真实世界任务进行测试。当你的模型超越了你的评估套件，你就真正进入了未知领域。

这项限制明确不是什么

这里有必要精确说明，因为框架本身很重要。这不是 Anthropic 在囤积能力。也不是竞争策略。限制的存在是因为广泛发布所造成的伤害不对称在短期内严重偏向负面：防御方需要协调和时间来打补丁；攻击方只需要模型本身。

通过最初将该模型发布给有限的关键行业合作伙伴，Anthropic 旨在让防御方在具有类似能力的模型广泛普及之前，率先开始保护最重要的系统。

其逻辑是顺序安排，而非保密。

Glasswing 参与者在做什么

工作范围

合作伙伴专门将 Claude Mythos Preview 用于防御性安全——在其拥有或维护的系统中发现并修复漏洞。范围延伸至第一方代码库和开源系统。Linux 基金会的加入尤为值得关注，正是因为大量关键基础设施运行在历史上安全资源不足的开源软件上。

合作伙伴怎么说

Cisco 在官方 Glasswing 页面上的声明：这项工作表明，他们能够以此前不可能实现的速度和规模，识别和修复硬件与软件中的安全漏洞。Microsoft 指出，该模型已经在帮助加固关键代码库中的代码。AWS 描述了将其应用于每日处理超过 400 万亿次网络流的技术栈。

这些不是演示性的证言。这些是生产安全团队对实际使用情况的描述。

资源投入

Anthropic 承诺在研究预览期间为 Project Glasswing 参与者提供价值 1 亿美元的模型使用积分，同时向开源安全组织直接捐款 400 万美元。访问定价为每百万输入/输出 token 分别 25/125 美元，可通过 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 访问。

这告诉我们什么关于 Anthropic 的发布策略

安全门控发布现已成为现实

在 Glasswing 之前，“我们会对发布保持谨慎”基本上还只是理论层面的表述。现在它已经付诸实践。Anthropic 开发了一项能力，对其进行了评估，判断其风险状况排除了公开发布的可能，并构建了一个既能创造价值又能管控负面影响的替代方案。这是一个模板。

实际含义是：并非每一项前沿能力都会走公开 API 发布的路线。某些能力——尤其是那些具有明显两用潜力的能力——可能会被限制在受管计划之后，访问权限取决于机构类型、使用场景或安全态势。

这与标准测试版有何不同

普通 API 测试版关注的是成熟度：模型还不够稳定，文档不完整，在正式发布前需要反馈。Glasswing 在性质上完全不同。模型已经准备好了。问题在于，如果在防御方有时间使用它之前广泛部署会发生什么。限制是关于影响的顺序安排，而非技术成熟度。

这一区别对于你思考前沿模型的”访问权”在未来意味着什么至关重要。

Glasswing 之后会怎样

Anthropic 已声明不打算将 Mythos Preview 公开发布。其既定目标是最终实现 Mythos 级模型的大规模安全部署——但这需要开发能够检测和阻止模型最危险输出的网络安全保障措施。他们计划随即将发布的 Claude Opus 模型推出新的保障措施，使用该模型来改进和完善这些保障措施，同时该模型不带有相同的风险状况。

换句话说：在更广泛访问之前，必须先完成一个安全开发路线图。90 天公开报告将是该路线图是否在推进方面的第一个真实数据点。

对构建者和生态系统的影响

受门控的前沿模型对你意味着什么

如果你正在基于 AI 构建产品——无论是作为基础设施负责人、产品负责人还是技术创始人——Glasswing 是第一个具体信号，表明前沿能力的访问模式正在分化。公开 API 将继续承载大多数使用场景。但对于前沿两用风险边界上的能力，带有机构审查的受管访问计划可能会成为标准。

这对构建者而言不一定是坏事。替代方案——完全无法访问——更糟。但这确实意味着，进入敏感领域前沿能力的路径将越来越需要展示机构适配性，而不仅仅是技术准备度。

Glasswing 预示着未来高能力模型的走向

Anthropic 通过 Glasswing 建立的模式几乎必然会被再次应用。当未来某个模型展示出具有实质性两用风险的能力——无论是在生物学、化学、网络安全还是其他领域——预计会出现相同的顺序安排：向防御方和研究人员限制访问、设定明确的透明度时间线，以及在任何更广泛推出之前的公开报告。

Anthropic 已指出这项工作可能需要数年时间，且前沿 AI 能力在此期间可能会大幅进步。这不是一次性的边缘案例。这是一种治理模式的开端。

常见问题

谁有资格申请 Project Glasswing 访问权限？

当前范围涵盖两类群体：命名发布合作伙伴（Anthropic 公开列出的大型科技和安全公司）以及 40 余家构建或维护关键软件基础设施的机构。截至本文撰写时，官方 Glasswing 页面上没有描述公开申请流程。

我可以作为独立研究者申请 Glasswing 吗？

目前的框架是面向机构的，而非个人。独立研究者原则上并未被排除在外——开源维护者被明确提及——但访问路径是通过维护关键软件的机构，而非个人研究者。如果这一点发生变化，很可能会通过官方 Glasswing 页面宣布。

Claude Mythos 最终会公开发布吗？

Anthropic 已声明不打算将 Mythos Preview 公开发布。具有 Mythos 级能力的未来模型，可能会在必要的安全保障措施开发和验证完成后公开发布——但目前没有公开时间表。

Mythos 有何不同之处，以至于需要限制发布？

两点：自主能力和范围。以前的模型可以协助完成安全任务。Mythos Preview 能够串联漏洞、编写可用的漏洞利用代码，并在不需要人工参与（初始提示之后）的情况下，在每个主流操作系统和浏览器中识别此前未知的漏洞。这是一种在性质上截然不同的风险状况。

Anthropic 以前做过这种门控发布吗？

没有在这种规模或具有如此明确安全框架的情况下。以往的限制发布都是标准测试版或企业计划。Glasswing 是 Anthropic 第一次公开表示：这项能力太危险，无法广泛发布，并提供了结构化的替代方案。这是全新的。

更多内容即将更新——90 天公开报告是下一个真实数据点，值得关注。

往期文章：