Preços e Limites Beta dos Claude Managed Agents

Ontem, puxei nossa planilha de custos de infraestrutura de agentes e fiquei olhando para ela por um tempo. Sou a Dora. Temos rodado um loop de agente auto-hospedado — orquestração de ferramentas, sandboxing, recuperação de erros, lógica de checkpoints — e ele consome aproximadamente 0,4 do tempo de um engenheiro só para não cair. Quando a Anthropic lançou o Claude Managed Agents em 8 de abril, a primeira coisa que fiz não foi ler a lista de funcionalidades. Abri a página de preços.

Este artigo documenta como a estrutura de cobrança realmente funciona quando você roda os números, onde ficam os limites de taxa e o que ainda é incerto por causa do rótulo de beta.

Como o Claude Managed Agents é Cobrado

Cobrança em duas partes: tokens + tempo de sessão

A cobrança do Managed Agents tem duas dimensões: tokens e tempo de sessão. Os tokens são cobrados pelas tarifas padrão de modelos da API Claude — o mesmo preço por milhão de tokens que você pagaria pela API Messages. O Opus 4.6 custa $5 de entrada / $25 de saída por MTok. O Sonnet 4.6 custa $3 / $15. Os multiplicadores de cache de prompt se aplicam de forma idêntica: leituras de cache custam 10% do preço de entrada base.

A segunda dimensão é a taxa de infraestrutura para o contêiner gerenciado.

Tempo de sessão: $0,08 por hora de sessão

A cobrança de tempo de execução é de $0,08 por hora de sessão para tempo de execução ativo, cobrado por consumo. Esse é o custo de infraestrutura do contêiner em sandbox no qual seu agente é executado.

Um detalhe que vale destacar: o tempo de sessão substitui o modelo de cobrança por hora de contêiner do Code Execution ao usar o Managed Agents — você não é cobrado duas vezes.

Pesquisa na web: $10 por 1.000 pesquisas

A pesquisa na web acionada dentro de uma sessão do Managed Agents custa a tarifa padrão de $10 por 1.000 pesquisas. A mesma tarifa da API avulsa. Um agente de pesquisa que dispara dezenas de buscas na web por sessão vai sentir esse item de linha.

Disponível apenas diretamente pela API Claude

O Managed Agents é cobrado diretamente pela Plataforma Claude. Preços de plataformas de terceiros — Bedrock, Vertex AI, Foundry — não se aplicam aqui. Se você estiver rodando agentes por um desses provedores, esta é uma relação de cobrança separada.

Custo do Tempo de Sessão: O Que Significa na Prática

O que conta como tempo de sessão

O tempo de execução é medido em milissegundos e só acumula enquanto o status da sessão é running. Tempo ocioso — aguardando sua próxima mensagem, uma confirmação de ferramenta, ou sentado encerrado — não conta. O medidor pausa quando o agente não tem nada para fazer.

Isso importa mais do que parece. Um agente que termina uma tarefa e aguarda 20 minutos pela entrada do usuário não está consumindo $0,08/h durante esses 20 minutos.

Agentes de longa execução vs. tarefas curtas

Um trabalho de processamento de arquivos de 10 minutos no Sonnet 4.6 custa aproximadamente $0,013 em tempo de execução. Mal é percebido. O custo de tokens domina.

Uma sessão de agente de pesquisa de 4 horas no Opus 4.6 é diferente. São $0,32 em tempo de execução, mas se o agente está ativamente raciocinando por cadeias de ferramentas complexas, você pode queimar mais de 200k tokens de entrada e mais de 50k tokens de saída. A conta de tokens sozinha poderia ultrapassar $1,25 antes que o cache entre em ação.

Exemplo de estimativa de custo

Aqui está o exemplo trabalhado da documentação de preços da Anthropic: uma sessão de codificação de uma hora no Opus 4.6 consumindo 50.000 tokens de entrada e 15.000 tokens de saída custa cerca de $0,70 no total. Com o cache de prompt ativo e 40.000 dessas entradas atingindo o cache, cai significativamente. O tempo de execução representa $0,08 desse total.

A verdadeira questão não é “o $0,08/hora é caro?” É “o quanto de tokens meu loop de ferramentas do agente consome?” Cada comando bash, leitura de arquivo, busca na web e pesquisa na web contribui com tokens. Uma sessão fortemente agêntica com dezenas de chamadas de ferramentas esgota o contexto rapidamente.

Limites de Taxa e Cotas

Endpoints de criação: 60 requisições por minuto

Os endpoints do Managed Agents têm limite de taxa por organização, e esses limites são separados dos limites de taxa da API Messages. Os endpoints de criação permitem 60 RPM no nível da organização.

Endpoints de leitura: 600 requisições por minuto

Os endpoints de leitura são limitados a 600 RPM no nível da organização. Se você estiver consultando o status da sessão com frequência em muitos agentes simultâneos, esse é o teto que você vai atingir primeiro.

Limites de gastos por organização e limites de taxa por nível também se aplicam

Os limites de taxa padrão baseados em nível se somam a isso. Os limites de tokens por minuto e requisições por minuto do seu nível de API ainda se aplicam às chamadas de modelo subjacentes que seus agentes fazem.

Como solicitar limites maiores

Para cargas de trabalho em produção que precisam de mais margem, a Anthropic oferece o Nível Prioritário com gasto comprometido. Entre em contato com a equipe de vendas deles pelo Claude Console para acordos personalizados de limite de taxa. Os gráficos de limite de taxa do Console mostram a margem em tempo real — use-os para ver quando você está se aproximando dos limites antes de receber erros 429.

Header Beta e O Que Muda na Versão Final

managed-agents-2026-04-01: obrigatório em todas as requisições

Todos os endpoints do Managed Agents requerem o header beta managed-agents-2026-04-01. O SDK o define automaticamente. Se você estiver usando cURL puro ou um cliente HTTP personalizado, adicione-o manualmente a cada requisição.

Incertezas da era beta

A documentação oficial declara que os comportamentos podem ser refinados entre versões para melhorar os resultados. Essa é uma ressalva padrão de beta.

Quero ser precisa sobre o que isso significa para os preços. Não é um anúncio de que a Anthropic planeja alterar os preços na versão final. Significa que os números atuais não são um compromisso contratual permanente — o que é verdade para qualquer preço em era beta, em qualquer lugar. Construa seus modelos de custo com essa incerteza considerada, mas não leia isso como um sinal de mudanças de preço iminentes.

Funcionalidades em prévia de pesquisa permanecem restritas

Certas funcionalidades — resultados, coordenação multi-agente e memória — estão em prévia de pesquisa e requerem solicitações de acesso separadas. Estas podem ter implicações de custo adicionais quando saírem da prévia. Ainda não sei. Ninguém fora da Anthropic sabe.

Interações com a API em Lote e Cache

API em Lote: não disponível para Managed Agents

Este é o ponto que vai pegar as pessoas de surpresa. Os modificadores da API Messages, incluindo a API em Lote, não se aplicam às sessões do Claude Managed Agents. Se você tem contado com o desconto de 50% para processamento em massa, você não pode replicar essa estrutura de custo com o Managed Agents. Esta é uma limitação confirmada, não um item de roadmap.

Cache de prompt: integrado

O cache de prompt está integrado ao harness do Managed Agents. Os multiplicadores padrão se aplicam — escritas de cache a 1,25x do preço de entrada base para TTL de 5 minutos, leituras de cache a 0,1x. Para sessões de longa duração onde o prompt do sistema e o contexto inicial são reutilizados em muitas chamadas de ferramentas, o cache pode reduzir significativamente a conta de tokens.

Compactação: integrada

O harness suporta compactação integrada e outras otimizações de desempenho para saídas eficientes do agente. Para sessões que duram tempo suficiente para se aproximar dos limites da janela de contexto, a compactação resume automaticamente os turnos de conversa anteriores. Isso ajuda a gerenciar o acúmulo de tokens sem você ter que construir uma estratégia de truncagem personalizada.

Considerações sobre Custos Ocultos

Sobrecarga de execução de ferramentas

Cada chamada de ferramenta gera tokens. Comandos bash, leituras de arquivos, buscas na web — cada um adiciona tokens de entrada e saída ao total da sua sessão. Um agente de pesquisa que encadeia mais de 30 chamadas de ferramentas em uma única sessão acumulará custos de tokens que eclipsam a taxa de $0,08/hora de tempo de execução.

Pesquisa na web a $10/1.000 chamadas é o custo por chamada mais visível. Mas o menos visível é a sobrecarga de tokens dos resultados de ferramentas que fluem de volta ao contexto. Uma busca na web que retorna uma página longa despeja milhares de tokens na sua sessão.

Funcionalidades em prévia de pesquisa: potencial multiplicador de custo

A coordenação multi-agente — onde agentes podem criar e direcionar outros agentes — está disponível em prévia de pesquisa. Cada sub-agente executa sua própria sessão com seu próprio consumo de tokens e medidor de tempo de execução. O multiplicador de custo depende de quantos sub-agentes são criados e por quanto tempo cada um executa. Não consegui verificar se as sessões de sub-agentes têm taxas de tempo de execução separadas ou compartilham a do agente pai. Este é um ponto a acompanhar.

Perguntas Frequentes

O Claude Managed Agents é gratuito durante o beta?

Não. A cobrança baseada em consumo está ativa agora — tarifas padrão de tokens mais $0,08 por hora de sessão para tempo de execução ativo. Não há nível gratuito especificamente para o Managed Agents. Novos usuários da API recebem uma pequena quantidade de créditos gratuitos para testes iniciais, mas esse é o crédito padrão de integração da API, não um benefício do Managed Agents.

Como funciona a cobrança do tempo de sessão para agentes assíncronos?

O tempo de execução só acumula enquanto o status da sessão é running. Se um agente termina uma tarefa e entra em modo ocioso — aguardando a próxima mensagem do usuário ou uma confirmação de ferramenta — esse tempo ocioso não custa nada. O medidor pausa e retoma quando o processamento reinicia. A medição é em milissegundos.

Posso usar o desconto da API em Lote com o Managed Agents?

Não. O desconto de 50% da API em Lote não se aplica. Se economias em nível de lote são críticas para seu fluxo de trabalho, avalie se as economias de infraestrutura do hosting gerenciado compensam a perda do desconto em lote. Para algumas cargas de trabalho, rodar seu próprio loop de agente na API Messages com processamento em lote ainda será mais barato.

O que acontece com a cobrança quando o beta terminar?

A Anthropic não se comprometeu com preços específicos para a versão final. Os atuais $0,08/hora de sessão e as tarifas padrão de tokens são números da era beta. O modelo de cobrança provavelmente persistirá de alguma forma, mas números específicos podem mudar. Considere essa incerteza em quaisquer projeções de custo de longo prazo.

Há um nível gratuito ou período de avaliação?

Não existe avaliação dedicada do Managed Agents. Os créditos gratuitos padrão da API se aplicam. Para avaliação empresarial, a equipe de vendas da Anthropic pode discutir acordos de avaliação estendida — entre em contato pelo Claude Console ou em sales@anthropic.com.

Isso é o que posso confirmar em 9 de abril de 2026. A estrutura de preços é direta uma vez que você separa as duas dimensões de cobrança, mas a variável real é o acúmulo de tokens por chamadas de ferramentas — é aí que suas estimativas vão divergir da realidade. Ainda estou rodando sessões de teste para ter uma leitura melhor de como a compactação e o cache interagem na marca de 2 horas ou mais. Mais informações em breve.

Posts anteriores: