Claude Mythos 网络安全能力：开发者与安全团队须知

“我们需要担心这个问题吗？” 当我正在评估内部AI工具选项时，客户安全团队的消息发到了Slack，与此同时，Anthropic泄露事件报道 也出现在了我的信息流中。

在 WaveSpeedAI 上即刻可用 — 按 token 透明计费,OpenAI 兼容端点。 Claude Opus 4.7 API → · 打开 Playground →

接下来48小时里，这个问题不断被提及。提问的不是AI爱好者，而是CISO、安全负责人，以及那些构建在AI基础设施之上、突然发现自己卷入一场毫无准备的对话的开发者们。

Mythos事件不只是一次AI产品发布公告。它是威胁环境走向的信号，而且理解哪些是确认的事实、哪些是推测，比以往任何一次新模型发布都更加重要。在这篇文章中，我们将一起深入探讨这个问题的答案。

泄露草稿揭示了哪些关于Mythos网络安全能力的内容

泄露的博客草稿——近3000份曝光内部资产的一部分——包含两项关于网络安全的惊人声明，被广泛引用。Anthropic在任何公开发布前内部撰写的文字，将这款未发布的模型（内部与”Capybara”等级绑定，称为 Claude Mythos）描述为”目前在网络能力方面远超任何其他AI模型”。文件还警告称，该模型”预示着即将到来的模型浪潮，这些模型能够以远超防御者努力的方式利用漏洞”。

第二段关键内容显示出异乎寻常的谨慎态度：“在准备发布Claude Mythos时，我们希望格外谨慎，理解它所带来的风险——甚至超出我们自己测试中所了解的范围。我们特别希望了解该模型在网络安全领域的近期潜在风险，并分享结果以帮助网络防御者做好准备。”

这种表述将网络安全风险不视为可管理的局限性，而视为需要主动与防御者共享的重大外部影响。这与Anthropic以往发布产品的姿态明显不同。

泄露中缺少什么？具体的基准测试数字、漏洞利用类别或详细方法论。“在网络安全测试中获得显著更高分数”代表了已披露能力的全部范围。网上流传的任何更具体内容都是推测。

为何Anthropic将此视为前所未有的风险

”在网络能力方面远超任何其他AI模型”究竟意味着什么

如果你了解现有基准——Opus 4.6已经具备的能力，这句话的分量就会完全不同。这并不是Mythos超越了一个低标准。

使用 Claude Opus 4.6，Anthropic的前沿红队在生产环境的开源代码库中发现并验证了超过500个高危漏洞——这些漏洞尽管经过多年专家审查，却已潜伏数十年未被发现。团队未使用任何专门指令或自定义工具，仅依靠模型的开箱即用能力。

一个值得关注的案例：Opus 4.6在大约90分钟内识别出Ghost CMS（一个拥有50,000+ GitHub星标且此前安全记录无懈可击的平台）中的盲注SQL漏洞。

AI驱动的漏洞发现与传统模糊测试之间的结构性差异是重要背景。模糊测试器向代码输入数据直到出现问题。Claude则对代码进行推理：跨组件追踪逻辑、读取提交历史以找到已修复漏洞的未打补丁变体，并评估哪些代码路径本身存在风险，而非研究每一种可能的输入。根据Anthropic自己的内部评估，Mythos在这方面比目前任何可用工具都出色——差距显著。

防御者差距问题：为何攻击可能超越防御

草稿最重要的洞察并不是列举新的攻击类型。而是阐明了攻击者与防御者非对称性存在的根本原因。攻击者只需找到一个弱点。防御者需要覆盖所有方面。一个能够对代码进行推理、识别潜在漏洞模式并协助完善漏洞利用的AI模型，压缩了从”想法”到”可运行攻击”的时间。

据报道，Anthropic已警告政府高级官员，Mythos可能通过支持高度复杂的自主代理，使2026年大规模网络攻击更有可能发生。Dark Reading 2026年初的一项调查发现，48%的网络安全专业人员现在将智能体AI列为年度首要攻击向量——超过深度伪造和社会工程学。

这不是Mythos从头创造的问题；它是一种加速剂。对手已经毫不犹豫、不受合规约束地使用AI。自我限制访问前沿模型的防御者面临着让出关键阵地的风险。

防御性与进攻性应用：界限在哪里

合法用例：漏洞扫描、红队测试、代码加固

Mythos能力的防御性应用确实意义重大——这也是Anthropic首先构建并发布它的主要原因。

Claude Code Security——内置于Claude Code的新能力——扫描代码库以发现安全漏洞，并为人工审查提供有针对性的软件补丁建议，使团队能够发现和修复传统方法经常遗漏的安全问题。没有任何内容会在未经人工批准的情况下应用：Claude Code Security识别问题并提出解决方案，但开发者始终做出最终决定。

将Mythos级别的能力应用于这一工作流程，意味着能够发现连Opus 4.6都会遗漏的漏洞类别——业务逻辑中的上下文依赖缺陷、多组件交互模式、需要理解系统架构而非代码模式的身份验证绕过。对于目前以季度为周期进行人工渗透测试的安全团队而言，具备Mythos级别推理质量的AI驱动持续扫描，代表着运营上可实现目标的实质性转变。

对于红队而言，同样的能力需要严格的范围界定和授权。模型本身无法区分授权测试和恶意使用——这种责任由你的流程和防护措施承担。

Anthropic为限制滥用所做的工作

在Opus 4.6发布的同时，Anthropic部署了激活级探针，以实时检测和阻止网络滥用，并承认这可能对合法安全研究造成摩擦。“这将为合法研究和部分防御性工作带来阻力，我们希望与安全研究社区合作，随着问题出现找到解决方法，“该公司警告道。

对于Mythos，管控措施是结构性的而非仅仅是技术性的。根据泄露文件和Anthropic的公开声明，初始访问权限仅限于经过审核的安全研究人员和防御者——目标是在进攻性能力广泛可用之前建立防御性工具。这与Anthropic处理以往高风险发布的方式一致，也符合NIST AI风险管理框架的建议实践，该框架倡导对双重用途AI系统进行分阶段部署并持续监控。

MITRE ATT&CK框架的对抗性AI战术部分值得任何试图模拟此处威胁面的安全团队参考。其中记录的战术假设的模型能力明显低于Mythos所代表的水平。

早期访问安全客户正在评估什么

泄露草稿明确说明了Anthropic的推出优先级：“我们将在未来几周内逐步向更多使用Claude API的客户开放Claude Mythos访问权限。由于我们对网络安全用途特别感兴趣，这将是我们优先扩展EAP的方向。”

早期访问群体正在针对该模型设计所要解决的具体问题评估Mythos：比现有工具更快、更全面地在经过加固的生产代码库中发现漏洞。分析师指出，它可能从两个方向压缩攻防差距——实现更快的漏洞发现、持续红队测试和威胁猎杀，同时如果被滥用，也会降低复杂攻击的门槛。

对于目前处于评估期的安全客户，实际问题集中在三个方面：Mythos如何与现有SIEM和漏洞管理工作流程集成、模型发现结果能否以与现有工单系统兼容的格式呈现，以及大规模运作时的人工审查需求是什么。

在对超过40位跨行业CISO的访谈中，VentureBeat发现，针对基于推理的扫描工具的正式治理框架是例外而非常规。最常见的回应是，该领域被认为太过新兴，许多CISO认为这种能力不会在2026年这么早就出现。早期访问计划内的团队，在某种真实意义上，正在编写整个行业将会遵循的治理规范。

对构建在AI基础设施上的开发团队的影响

如果你的团队正在Claude或任何前沿AI模型之上构建产品，Mythos情况带来了两个截然不同的担忧类别。

第一个是直接的：你是AI辅助攻击的潜在目标，而这些攻击的能力正在不断增强。

第二个担忧是架构层面的：你的AI基础设施如何防范提示注入、未授权工具访问和智能体滥用。组织需要将每个智能体、机器人和AI服务视为一个身份，对非人类身份实施与人类用户同等级别的控制、权限和监督——要求对访问进行清单管理，并消除会产生不安全机器人的硬编码凭证。

实际上，这对今天在Claude上构建产品的团队意味着以下几点：

严格限制MCP服务器的访问范围。 你连接到Claude智能体的每个MCP服务器都是潜在的攻击面。使Claude Code功能强大的扩展智能体能力，也使范围界定不当的智能体权限成为有意义的风险向量。

将CLAUDE.md视为安全文档。 CLAUDE.md中定义智能体可以使用哪些工具、可以读取哪些文件、可以执行哪些操作的指令是安全控制措施，而不仅仅是生产力辅助工具。一份授予广泛文件访问权或工具权限的不完善CLAUDE.md会放大风险。

对AI生成的补丁应用人工审查，而不仅仅是对AI生成的代码。 AI生成的代码引入XSS漏洞的可能性是人工编写代码的2.74倍，引入不安全对象引用的可能性是1.91倍。发现漏洞的相同推理能力也可能引入漏洞。对安全相关变更的人工审查不是可选项。

常见问题

安全团队现在可以访问Claude Mythos吗？

无法通过任何公开渠道访问。该模型的推出计划反映了网络安全方面的担忧：早期访问权限仅限于经过审核的防御性网络安全组织。对于希望提前准备的安全团队，Claude Code Security——基于Opus 4.6构建，目前向企业版和团队版客户提供有限研究预览——是最接近的公开可访问工具，也是了解Mythos级别能力将如何扩展的有用基准。

Anthropic正在构建哪些保障措施？

已确认的措施包括实时滥用检测探针、优先考虑防御者的分阶段推出，以及补丁的人在回路要求。对于Mythos，重点在于部署治理、工具边界和审计跟踪。

Claude Mythos会用于商业红队测试吗？

尚未确认。早期访问群体专注于防御性安全用例。商业红队测试——组织雇用安全公司主动探测其系统——处于模糊地带：它是经授权的进攻。鉴于该公司对进攻性滥用的明确担忧，预计红队测试用例将有实质性访问控制，而非开放API访问。

往期文章：

泄露草稿揭示了哪些关于Mythos网络安全能力的内容

为何Anthropic将此视为前所未有的风险

”在网络能力方面远超任何其他AI模型”究竟意味着什么

防御者差距问题：为何攻击可能超越防御

防御性与进攻性应用：界限在哪里

合法用例：漏洞扫描、红队测试、代码加固

Anthropic为限制滥用所做的工作

早期访问安全客户正在评估什么

对构建在AI基础设施上的开发团队的影响

常见问题

相关文章

ByteDance Seedance 2.0 Mini 现已登陆WaveSpeedAI

Claude Fable 5回退到Opus 4.8详解

GLM-5.2 API：定价、100万上下文与生产路由

GPT-5.4 Mini定价详解：输入、缓存与输出费用

MAI-Image-2.5 API：开发者须知

MiniMax M3定价：面向开发者的长上下文API成本解析