← 博客

Claude Managed Agents 定价与 Beta 限制

Claude Managed Agents 按 token 计费,并额外收取 $0.08/会话小时的运行时费用,网络搜索为每 1,000 次调用 $10。以下是 Beta 计费结构对您工作负载的影响。

By Dora 3 min read
Claude Managed Agents 定价与 Beta 限制

昨天我打开了我们的 Agent 基础设施成本表,盯着它看了好一会儿。我叫 Dora。我们一直在运行一个自托管的 Agent 循环——工具编排、沙箱隔离、错误恢复、检查点逻辑——仅仅为了维持它不崩溃,就要消耗大约 0.4 个工程师的精力。当 Anthropic 在 4 月 8 日发布 Claude Managed Agents 时,我做的第一件事不是阅读功能列表,而是打开了定价页面。

这篇文章记录了当你实际核算数字时,计费结构究竟长什么样,速率限制在哪里,以及 Beta 标签背后哪些内容仍不确定。

Claude Managed Agents 的定价方式

双维度计费:Token + 会话运行时

Managed Agents 的计费有两个维度:Token 和​会话运行时​。Token 按照标准 Claude API 模型费率计费——与通过 Messages API 支付的每百万 Token 定价相同。Opus 4.6 的费率为​输入 $5 / 输出 $25(每 MTok)​。Sonnet 4.6 为​**$3 / $15**​。Prompt 缓存倍率完全一致沿用:缓存读取费用为基础输入价格的 10%。

第二个维度是托管容器的基础设施费用。

会话运行时:每会话小时 $0.08

运行时费用为活跃运行时每会话小时 $0.08,按实际消耗计费。这是你的 Agent 所运行的沙箱容器的基础设施成本。

有一个细节值得注意:在使用 Managed Agents 时,会话运行时取代了 Code Execution 的容器小时计费模型——不会重复收费。

Web 搜索:每 1,000 次搜索 $10

在 Managed Agents 会话中触发的 Web 搜索,收费为标准的​每 1,000 次搜索 $10​,与独立 API 费率相同。每次会话需要触发数十次 Web 搜索的研究型 Agent,这一费用项会相当显眼。

仅可通过 Claude API 直接使用

Managed Agents 通过 Claude Platform 直接计费。第三方平台定价——Bedrock、Vertex AI、Foundry——不适用于此。如果你通过上述某个提供商运行 Agent,这是一个独立的计费关系。

会话运行时成本:实际意味着什么

什么算作会话运行时

运行时精确到毫秒计量,且仅在会话状态为 running 时才累积。空闲时间——等待你的下一条消息、等待工具确认,或会话已终止——不计费。当 Agent 无事可做时,计时器暂停。

这比听起来更重要。一个完成任务后等待用户输入 20 分钟的 Agent,在这 20 分钟内不会消耗 $0.08/小时的费用。

长时运行 vs. 短任务 Agent

在 Sonnet 4.6 上运行一个 10 分钟的文件处理任务,运行时成本大约为​**$0.013**​。几乎可以忽略不计,Token 成本才是主导。

在 Opus 4.6 上运行一个 4 小时的研究 Agent 会话则截然不同。运行时费用为​**$0.32**​,但如果 Agent 正在积极推理复杂的工具调用链,你可能会消耗 20 万+ 输入 Token 和 5 万+ 输出 Token。仅 Token 费用在缓存生效之前就可能超过 $1.25。

成本估算示例

以下是来自 Anthropic 定价文档的计算示例:在 Opus 4.6 上进行一小时编程会话,消耗 50,000 输入 Token 和 15,000 输出 Token,总费用约为 $0.70。如果启用 Prompt 缓存,且其中 40,000 个输入命中缓存,费用会显著降低。运行时费用在总费用中占 $0.08。

真正的问题不是”$0.08/小时贵不贵”,而是”我的 Agent 工具循环有多消耗 Token?” 每个 bash 命令、文件读取、Web 抓取和 Web 搜索都会贡献 Token。一个包含数十次工具调用的重度 Agentic 会话,会迅速消耗上下文。

速率限制与配额

创建端点:每分钟 60 次请求

Managed Agents 端点按组织维度进行速率限制,且这些限制与 Messages API 速率限制是独立的。创建端点在组织层面允许每分钟 60 次请求(RPM)。

读取端点:每分钟 600 次请求

读取端点在组织层面上限为每分钟 600 次请求。如果你频繁轮询大量并发 Agent 的会话状态,这是你最先触达的上限。

组织级消费限额和基于层级的速率限制同样适用

标准的基于层级的速率限制会叠加在上面。你的 API 层级中每分钟 Token 数和每分钟请求数的限制,仍然适用于你的 Agent 所进行的底层模型调用。

如何申请更高限额

对于需要更大配额的生产工作负载,Anthropic 提供具有承诺消费的 Priority Tier。通过 Claude Console 联系其销售团队,可以商议自定义速率限制安排。Console 的速率限制图表会实时显示剩余空间——在触碰 429 错误之前,用它来查看何时接近限额。

Beta 标头与 GA 正式版的变化

managed-agents-2026-04-01:每次请求必须携带

所有 Managed Agents 端点都需要携带 managed-agents-2026-04-01 Beta 标头。SDK 会自动设置它。如果你使用原始 cURL 或自定义 HTTP 客户端,需要手动将其添加到每个请求中。

Beta 阶段的不确定性

官方文档声明,各版本之间的行为可能会经过调整以改善输出。这是标准的 Beta 免责声明。

我想对这意味着什么表达得更精确一些。这并不是 Anthropic 计划在 GA 时更改定价的公告。 它意味着当前的数字不是永久性的合同承诺——这对任何 Beta 阶段的定价来说都是如此,无论何处皆然。在构建成本模型时将这种不确定性纳入考量,但不要将其解读为即将涨价的信号。

研究预览功能仍受访问限制

某些功能——成果(outcomes)、多 Agent 协调和记忆——处于研究预览阶段,需要单独申请访问权限。当它们离开预览阶段时,可能会带来额外的成本影响。目前我还不知道,Anthropic 以外的人也不知道。

Batch API 与缓存的交互

Batch API:不适用于 Managed Agents

这是最容易让人踩坑的地方。包括 Batch API 在内的 Messages API 修饰符,不适用于 Claude Managed Agents 会话。如果你一直依赖批量处理的 50% 折扣,你无法在 Managed Agents 中复制该成本结构。这是一个已确认的限制,不是路线图上的待办项。

Prompt 缓存:内置支持

Prompt 缓存内置于 Managed Agents 框架中。标准倍率适用——缓存写入为基础输入价格的 1.25 倍(5 分钟 TTL),缓存读取为 0.1 倍。对于长时运行的会话,系统提示和早期上下文会在多次工具调用中被复用,缓存可以显著降低 Token 费用。

上下文压缩:内置支持

该框架支持内置的上下文压缩和其他性能优化,以实现高效的 Agent 输出。对于运行时间足够长、接近上下文窗口限制的会话,压缩机制会自动总结早期对话轮次。这有助于管理 Token 累积,无需你自己构建自定义截断策略。

隐性成本考量

工具执行开销

每次工具调用都会产生 Token。Bash 命令、文件读取、Web 抓取——每一个都会向你的会话总量增加输入和输出 Token。一个在单次会话中链式调用 30+ 次工具的研究 Agent,其累积的 Token 成本将远超 $0.08/小时的运行时费用。

Web 搜索以每 1,000 次 $10 的价格,是最直观的单次调用成本。但不那么直观的是工具结果回流到上下文时的 Token 开销。一次返回长页面的 Web 抓取,会向你的会话注入数千个 Token。

研究预览功能:潜在的成本倍增器

多 Agent 协调——Agent 可以启动并指挥其他 Agent——已在研究预览阶段开放。每个子 Agent 运行自己的会话,有自己的 Token 消耗和运行时计时器。成本倍增幅度取决于生成了多少子 Agent 以及每个运行多长时间。我尚未能确认子 Agent 会话是否产生独立的运行时费用,还是共享父 Agent 的费用。这是一个需要持续关注的问题。

常见问题

Claude Managed Agents 在 Beta 期间免费吗?

不免费。基于消耗的定价现已生效——标准 Token 费率加上每活跃会话小时 $0.08。Managed Agents 没有专属的免费层级。新 API 用户会获得少量免费额度用于初始测试,但那是标准 API 入门额度,不是 Managed Agents 专属福利。

异步 Agent 的会话运行时计费如何运作?

运行时仅在会话状态为 running 时累积。如果 Agent 完成任务并进入空闲状态——等待下一条用户消息或工具确认——那段空闲时间不产生费用。计时器暂停,并在处理重新开始时恢复。计量精确到毫秒。

我可以对 Managed Agents 使用 Batch API 折扣吗?

不可以。50% 的 Batch API 折扣不适用。如果批量级别的节省对你的工作流至关重要,请评估托管基础设施节省的成本是否能弥补失去批量折扣的损失。对于某些工作负载,在 Messages API 上自建 Agent 循环并使用批量处理,仍然会更便宜。

Beta 结束后计费会有什么变化?

Anthropic 尚未承诺具体的 GA 定价。当前的 $0.08/会话小时和标准 Token 费率是 Beta 阶段的数字。计费模型可能会以某种形式延续,但具体数字可能会有所变化。在制定任何长期成本预测时,请将这种不确定性纳入考量。

有免费层级或试用版吗?

目前没有专属的 Managed Agents 试用。标准 API 免费额度适用。对于企业级评估,Anthropic 的销售团队可以商议延长试用安排——通过 Claude Console 或发邮件至 sales@anthropic.com 联系他们。

以上是截至 2026 年 4 月 9 日我能确认的内容。一旦你将两个计费维度分开来看,定价结构就相当清晰了,但真正的变量在于工具调用的 Token 累积——这才是你的估算与现实产生偏差的地方。我仍在运行测试会话,以更好地了解压缩和缓存在超过 2 小时时的交互效果。后续会有更多更新。

往期文章: