← 博客

Claude Mythos 网络安全能力:开发者与安全团队须知

Claude Mythos 引发了严重的网络安全担忧。以下是泄露的相关说法对正在评估该模型的开发者和安全团队意味着什么。

1 min read
Claude Mythos 网络安全能力:开发者与安全团队须知

“我们需要担心这个问题吗?” 当我正在评估内部AI工具选项时,客户安全团队的消息发到了Slack,与此同时,Anthropic泄露事件报道 也出现在了我的信息流中。

接下来48小时里,这个问题不断被提及。提问的不是AI爱好者,而是CISO、安全负责人,以及那些构建在AI基础设施之上、突然发现自己卷入一场毫无准备的对话的开发者们。

Mythos事件不只是一次AI产品发布公告。它是威胁环境走向的信号,而且理解哪些是确认的事实、哪些是推测,比以往任何一次新模型发布都更加重要。在这篇文章中,我们将一起深入探讨这个问题的答案。

泄露草稿揭示了哪些关于Mythos网络安全能力的内容

泄露的博客草稿——近3000份曝光内部资产的一部分——包含两项关于网络安全的惊人声明,被广泛引用。Anthropic在任何公开发布前内部撰写的文字,将这款未发布的模型(内部与”Capybara”等级绑定,称为 Claude Mythos)描述为”目前在网络能力方面远超任何其他AI模型”。文件还警告称,该模型”预示着即将到来的模型浪潮,这些模型能够以远超防御者努力的方式利用漏洞”。

第二段关键内容显示出异乎寻常的谨慎态度:“在准备发布Claude Mythos时,我们希望格外谨慎,理解它所带来的风险——甚至超出我们自己测试中所了解的范围。我们特别希望了解该模型在网络安全领域的近期潜在风险,并分享结果以帮助网络防御者做好准备。”

这种表述将网络安全风险不视为可管理的局限性,而视为需要主动与防御者共享的重大外部影响。这与Anthropic以往发布产品的姿态明显不同。

泄露中缺少什么?具体的基准测试数字、漏洞利用类别或详细方法论。“在网络安全测试中获得显著更高分数”代表了已披露能力的全部范围。网上流传的任何更具体内容都是推测。

为何Anthropic将此视为前所未有的风险

”在网络能力方面远超任何其他AI模型”究竟意味着什么

如果你了解现有基准——Opus 4.6已经具备的能力,这句话的分量就会完全不同。这并不是Mythos超越了一个低标准。

使用 Claude Opus 4.6,Anthropic的前沿红队在生产环境的开源代码库中发现并验证了超过500个高危漏洞——这些漏洞尽管经过多年专家审查,却已潜伏数十年未被发现。团队未使用任何专门指令或自定义工具,仅依靠模型的开箱即用能力。

一个值得关注的案例:Opus 4.6在大约90分钟内识别出Ghost CMS(一个拥有50,000+ GitHub星标且此前安全记录无懈可击的平台)中的盲注SQL漏洞。

AI驱动的漏洞发现与传统模糊测试之间的结构性差异是重要背景。模糊测试器向代码输入数据直到出现问题。Claude则对代码进行推理:跨组件追踪逻辑、读取提交历史以找到已修复漏洞的未打补丁变体,并评估哪些代码路径本身存在风险,而非研究每一种可能的输入。根据Anthropic自己的内部评估,Mythos在这方面比目前任何可用工具都出色——差距显著。

防御者差距问题:为何攻击可能超越防御

草稿最重要的洞察并不是列举新的攻击类型。而是阐明了攻击者与防御者非对称性存在的根本原因。攻击者只需找到一个弱点。防御者需要覆盖所有方面。一个能够对代码进行推理、识别潜在漏洞模式并协助完善漏洞利用的AI模型,压缩了从”想法”到”可运行攻击”的时间。

据报道,Anthropic已警告政府高级官员,Mythos可能通过支持高度复杂的自主代理,使2026年大规模网络攻击更有可能发生。Dark Reading 2026年初的一项调查发现,48%的网络安全专业人员现在将智能体AI列为年度首要攻击向量——超过深度伪造和社会工程学。

这不是Mythos从头创造的问题;它是一种加速剂。对手已经毫不犹豫、不受合规约束地使用AI。自我限制访问前沿模型的防御者面临着让出关键阵地的风险。

防御性与进攻性应用:界限在哪里

合法用例:漏洞扫描、红队测试、代码加固

Mythos能力的防御性应用确实意义重大——这也是Anthropic首先构建并发布它的主要原因。

Claude Code Security——内置于Claude Code的新能力——扫描代码库以发现安全漏洞,并为人工审查提供有针对性的软件补丁建议,使团队能够发现和修复传统方法经常遗漏的安全问题。没有任何内容会在未经人工批准的情况下应用:Claude Code Security识别问题并提出解决方案,但开发者始终做出最终决定。

将Mythos级别的能力应用于这一工作流程,意味着能够发现连Opus 4.6都会遗漏的漏洞类别——业务逻辑中的上下文依赖缺陷、多组件交互模式、需要理解系统架构而非代码模式的身份验证绕过。对于目前以季度为周期进行人工渗透测试的安全团队而言,具备Mythos级别推理质量的AI驱动持续扫描,代表着运营上可实现目标的实质性转变。

对于红队而言,同样的能力需要严格的范围界定和授权。模型本身无法区分授权测试和恶意使用——这种责任由你的流程和防护措施承担。

Anthropic为限制滥用所做的工作

在Opus 4.6发布的同时,Anthropic部署了激活级探针,以实时检测和阻止网络滥用,并承认这可能对合法安全研究造成摩擦。“这将为合法研究和部分防御性工作带来阻力,我们希望与安全研究社区合作,随着问题出现找到解决方法,“该公司警告道。

对于Mythos,管控措施是结构性的而非仅仅是技术性的。根据泄露文件和Anthropic的公开声明,初始访问权限仅限于经过审核的安全研究人员和防御者——目标是在进攻性能力广泛可用之前建立防御性工具。这与Anthropic处理以往高风险发布的方式一致,也符合NIST AI风险管理框架的建议实践,该框架倡导对双重用途AI系统进行分阶段部署并持续监控。

MITRE ATT&CK框架的对抗性AI战术部分值得任何试图模拟此处威胁面的安全团队参考。其中记录的战术假设的模型能力明显低于Mythos所代表的水平。

早期访问安全客户正在评估什么

泄露草稿明确说明了Anthropic的推出优先级:“我们将在未来几周内逐步向更多使用Claude API的客户开放Claude Mythos访问权限。由于我们对网络安全用途特别感兴趣,这将是我们优先扩展EAP的方向。”

早期访问群体正在针对该模型设计所要解决的具体问题评估Mythos:比现有工具更快、更全面地在经过加固的生产代码库中发现漏洞。分析师指出,它可能从两个方向压缩攻防差距——实现更快的漏洞发现、持续红队测试和威胁猎杀,同时如果被滥用,也会降低复杂攻击的门槛。

对于目前处于评估期的安全客户,实际问题集中在三个方面:Mythos如何与现有SIEM和漏洞管理工作流程集成、模型发现结果能否以与现有工单系统兼容的格式呈现,以及大规模运作时的人工审查需求是什么。

在对超过40位跨行业CISO的访谈中,VentureBeat发现,针对基于推理的扫描工具的正式治理框架是例外而非常规。最常见的回应是,该领域被认为太过新兴,许多CISO认为这种能力不会在2026年这么早就出现。早期访问计划内的团队,在某种真实意义上,正在编写整个行业将会遵循的治理规范。

对构建在AI基础设施上的开发团队的影响

如果你的团队正在Claude或任何前沿AI模型之上构建产品,Mythos情况带来了两个截然不同的担忧类别。

第一个是直接的:你是AI辅助攻击的潜在目标,而这些攻击的能力正在不断增强。

第二个担忧是架构层面的:你的AI基础设施如何防范提示注入、未授权工具访问和智能体滥用。组织需要将每个智能体、机器人和AI服务视为一个身份,对非人类身份实施与人类用户同等级别的控制、权限和监督——要求对访问进行清单管理,并消除会产生不安全机器人的硬编码凭证。

实际上,这对今天在Claude上构建产品的团队意味着以下几点:

严格限制MCP服务器的访问范围。 你连接到Claude智能体的每个MCP服务器都是潜在的攻击面。使Claude Code功能强大的扩展智能体能力,也使范围界定不当的智能体权限成为有意义的风险向量。

将CLAUDE.md视为安全文档。 CLAUDE.md中定义智能体可以使用哪些工具、可以读取哪些文件、可以执行哪些操作的指令是安全控制措施,而不仅仅是生产力辅助工具。一份授予广泛文件访问权或工具权限的不完善CLAUDE.md会放大风险。

对AI生成的补丁应用人工审查,而不仅仅是对AI生成的代码。 AI生成的代码引入XSS漏洞的可能性是人工编写代码的2.74倍,引入不安全对象引用的可能性是1.91倍。发现漏洞的相同推理能力也可能引入漏洞。对安全相关变更的人工审查不是可选项。

常见问题

安全团队现在可以访问Claude Mythos吗?

无法通过任何公开渠道访问。该模型的推出计划反映了网络安全方面的担忧:早期访问权限仅限于经过审核的防御性网络安全组织。对于希望提前准备的安全团队,Claude Code Security——基于Opus 4.6构建,目前向企业版和团队版客户提供有限研究预览——是最接近的公开可访问工具,也是了解Mythos级别能力将如何扩展的有用基准。

Anthropic正在构建哪些保障措施?

已确认的措施包括实时滥用检测探针、优先考虑防御者的分阶段推出,以及补丁的人在回路要求。对于Mythos,重点在于部署治理、工具边界和审计跟踪。

Claude Mythos会用于商业红队测试吗?

尚未确认。早期访问群体专注于防御性安全用例。商业红队测试——组织雇用安全公司主动探测其系统——处于模糊地带:它是经授权的进攻。鉴于该公司对进攻性滥用的明确担忧,预计红队测试用例将有实质性访问控制,而非开放API访问。

往期文章: