Precios y límites beta de Claude Managed Agents

Ayer saqué la hoja de costos de nuestra infraestructura de agentes y me quedé mirándola un rato. Soy Dora. Llevamos tiempo ejecutando un bucle de agente alojado por nosotros mismos — orquestación de herramientas, sandboxing, recuperación de errores, lógica de checkpoints — y consume aproximadamente 0.4 del tiempo de un ingeniero solo para evitar que se caiga. Cuando Anthropic lanzó Claude Managed Agents el 8 de abril, lo primero que hice no fue leer la lista de funciones. Abrí la página de precios.

Este artículo documenta cómo funciona realmente la estructura de facturación cuando haces los cálculos, dónde están los límites de tasa, y qué sigue siendo incierto debido a la etiqueta beta.

Cómo se Cobra Claude Managed Agents

Facturación en dos partes: tokens + tiempo de sesión

La facturación de Managed Agents tiene dos dimensiones: tokens y tiempo de sesión en ejecución. Los tokens se cobran a las tarifas estándar del modelo de la API de Claude — el mismo precio por millón de tokens que pagarías a través de la Messages API. Opus 4.6 cuesta $5 entrada / $25 salida por MTok. Sonnet 4.6 es $3 / $15. Los multiplicadores de caché de prompts se aplican de forma idéntica: las lecturas de caché cuestan el 10% del precio base de entrada.

La segunda dimensión es la tarifa de infraestructura por el contenedor gestionado.

Tiempo de sesión: $0.08 por hora de sesión

El cargo por tiempo de ejecución es de $0.08 por hora de sesión para tiempo de ejecución activo, facturado por consumo. Ese es el costo de infraestructura del contenedor en sandbox donde corre tu agente.

Un detalle importante: el tiempo de sesión reemplaza el modelo de facturación por hora de contenedor de Code Execution cuando se usa Managed Agents — no se cobra dos veces.

Búsqueda web: $10 por 1,000 búsquedas

La búsqueda web activada dentro de una sesión de Managed Agents cuesta la tarifa estándar de $10 por 1,000 búsquedas. Misma tarifa que la API independiente. Un agente de investigación que realiza docenas de búsquedas web por sesión notará este concepto en la factura.

Solo disponible directamente a través de la API de Claude

Managed Agents se factura directamente a través de la Plataforma Claude. Los precios de plataformas de terceros — Bedrock, Vertex AI, Foundry — no aplican aquí. Si estás ejecutando agentes a través de uno de esos proveedores, esta es una relación de facturación separada.

Costo del Tiempo de Sesión: Lo Que Significa en la Práctica

Qué cuenta como tiempo de sesión

El tiempo de ejecución se mide en milisegundos y solo se acumula mientras el estado de la sesión es running. El tiempo inactivo — esperando tu próximo mensaje, una confirmación de herramienta, o cuando está terminada — no cuenta. El contador se detiene cuando el agente no tiene nada que hacer.

Esto importa más de lo que parece. Un agente que termina una tarea y espera 20 minutos por la entrada del usuario no consume $0.08/hr durante esos 20 minutos.

Agentes de larga duración vs. tareas cortas

Un trabajo de procesamiento de archivos de 10 minutos en Sonnet 4.6 cuesta aproximadamente $0.013 en tiempo de ejecución. Apenas se nota. El costo de tokens domina.

Una sesión de agente de investigación de 4 horas en Opus 4.6 es diferente. Eso son $0.32 en tiempo de ejecución, pero si el agente está razonando activamente a través de cadenas de herramientas complejas, podrías consumir más de 200k tokens de entrada y 50k+ tokens de salida. Solo la factura de tokens podría superar $1.25 antes de que el caché entre en juego.

Estimación de costo de ejemplo

Aquí está el ejemplo trabajado de la documentación de precios de Anthropic: una sesión de codificación de una hora en Opus 4.6 consumiendo 50,000 tokens de entrada y 15,000 tokens de salida cuesta aproximadamente $0.70 en total. Con el caché de prompts activo y 40,000 de esas entradas llegando al caché, baja significativamente. El tiempo de ejecución representa $0.08 de ese total.

La pregunta real no es “¿es caro $0.08/hora?” Es “¿cuántos tokens consume el bucle de herramientas de mi agente?” Cada comando bash, lectura de archivo, fetch web y búsqueda web contribuye tokens. Una sesión altamente agéntica con docenas de llamadas a herramientas consume contexto rápidamente.

Límites de Tasa y Cuotas

Endpoints de creación: 60 solicitudes por minuto

Los endpoints de Managed Agents tienen límites de tasa por organización, y estos límites son independientes de los límites de tasa de la Messages API. Los endpoints de creación permiten 60 RPM a nivel de organización.

Endpoints de lectura: 600 solicitudes por minuto

Los endpoints de lectura tienen un límite de 600 RPM a nivel de organización. Si estás consultando el estado de la sesión frecuentemente a través de muchos agentes concurrentes, este es el techo que alcanzarás primero.

También aplican los límites de gasto por organización y los límites de tasa por nivel

Los límites de tasa estándar por nivel se superponen. Los límites de tokens por minuto y solicitudes por minuto de tu nivel de API siguen aplicándose a las llamadas al modelo subyacente que hacen tus agentes.

Cómo solicitar límites más altos

Para cargas de trabajo en producción que necesitan más margen, Anthropic ofrece el Nivel Prioritario con gasto comprometido. Contacta a su equipo de ventas a través de la Consola de Claude para acuerdos personalizados de límites de tasa. Los gráficos de límites de tasa de la Consola muestran el margen en tiempo real — úsalos para ver cuándo te estás acercando a los límites antes de recibir errores 429.

Encabezado Beta y Qué Cambia en GA

managed-agents-2026-04-01: requerido en cada solicitud

Todos los endpoints de Managed Agents requieren el encabezado beta managed-agents-2026-04-01. El SDK lo establece automáticamente. Si estás usando cURL directamente o un cliente HTTP personalizado, agrégalo manualmente a cada solicitud.

Incertidumbre en la fase beta

La documentación oficial establece que los comportamientos pueden refinarse entre versiones para mejorar los resultados. Es una advertencia estándar de la fase beta.

Quiero ser precisa sobre lo que esto significa para los precios. No es un anuncio de que Anthropic planea cambiar los precios en GA. Significa que los números actuales no son un compromiso contractual permanente — lo cual es cierto para cualquier precio en fase beta, en cualquier lugar. Construye tus modelos de costos con esa incertidumbre incorporada, pero no lo interpretes como una señal de cambios de precio inminentes.

Las funciones en vista previa de investigación siguen siendo restringidas

Ciertas funciones — resultados, coordinación multiagente y memoria — están en vista previa de investigación y requieren solicitudes de acceso separadas. Estas podrían tener implicaciones de costo adicionales cuando salgan de la vista previa. Aún no lo sé. Nadie fuera de Anthropic tampoco.

Interacciones con la Batch API y el Caché

Batch API: no disponible para Managed Agents

Este es el que va a sorprender a la gente. Los modificadores de la Messages API, incluida la Batch API, no se aplican a las sesiones de Claude Managed Agents. Si has estado dependiendo del descuento del 50% para el procesamiento masivo, no puedes replicar esa estructura de costos con Managed Agents. Esta es una limitación confirmada, no un elemento del roadmap.

Caché de prompts: integrado

El caché de prompts está integrado en el harness de Managed Agents. Los multiplicadores estándar aplican — escrituras de caché a 1.25x del precio base de entrada para TTL de 5 minutos, lecturas de caché a 0.1x. Para sesiones de larga duración donde el prompt del sistema y el contexto inicial se reutilizan a través de muchas llamadas a herramientas, el caché puede reducir significativamente la factura de tokens.

Compactación: integrada

El harness soporta compactación integrada y otras optimizaciones de rendimiento para salidas de agentes eficientes. Para sesiones que duran lo suficiente como para acercarse a los límites de la ventana de contexto, la compactación resume automáticamente los turnos de conversación anteriores. Esto ayuda a gestionar la acumulación de tokens sin que tengas que construir una estrategia personalizada de truncamiento.

Consideraciones de Costos Ocultos

Sobrecarga de ejecución de herramientas

Cada llamada a herramienta genera tokens. Comandos bash, lecturas de archivos, fetches web — cada uno agrega tokens de entrada y salida al total de tu sesión. Un agente de investigación que encadena 30+ llamadas a herramientas en una sola sesión acumulará costos de tokens que eclipsan la tarifa de $0.08/hora de tiempo de ejecución.

La búsqueda web a $10/1,000 llamadas es el costo por llamada más visible. Pero el menos visible es la sobrecarga de tokens de los resultados de herramientas que fluyen de vuelta al contexto. Un fetch web que devuelve una página larga vuelca miles de tokens en tu sesión.

Funciones en vista previa de investigación: posible multiplicador de costos

La coordinación multiagente — donde los agentes pueden activar y dirigir a otros agentes — está disponible en vista previa de investigación. Cada subagente ejecuta su propia sesión con su propio consumo de tokens y medidor de tiempo de ejecución. El multiplicador de costos depende de cuántos subagentes se activen y cuánto tiempo ejecute cada uno. No he podido verificar si las sesiones de subagentes tienen tarifas de tiempo de ejecución separadas o comparten la del padre. Este es uno a vigilar.

Preguntas Frecuentes

¿Es gratis Claude Managed Agents durante la beta?

No. Los precios basados en consumo están activos ahora — tarifas estándar de tokens más $0.08 por hora de sesión para tiempo de ejecución activo. No hay un nivel gratuito específicamente para Managed Agents. Los nuevos usuarios de la API reciben una pequeña cantidad de créditos gratuitos para pruebas iniciales, pero ese es el crédito estándar de incorporación a la API, no un beneficio de Managed Agents.

¿Cómo funciona la facturación del tiempo de sesión para agentes asíncronos?

El tiempo de ejecución solo se acumula mientras el estado de la sesión es running. Si un agente termina una tarea y entra en inactivo — esperando el próximo mensaje del usuario o una confirmación de herramienta — ese tiempo inactivo no cuesta nada. El contador se detiene y se reanuda cuando el procesamiento reinicia. La medición es en milisegundos.

¿Puedo usar el descuento de la Batch API con Managed Agents?

No. El descuento del 50% de la Batch API no aplica. Si los ahorros a nivel de batch son críticos para tu flujo de trabajo, evalúa si los ahorros de infraestructura del alojamiento gestionado compensan perder el descuento de batch. Para algunas cargas de trabajo, ejecutar tu propio bucle de agente en la Messages API con procesamiento por lotes seguirá siendo más barato.

¿Qué pasa con la facturación cuando termine la beta?

Anthropic no se ha comprometido con precios específicos para GA. Los $0.08/hora de sesión actuales y las tarifas estándar de tokens son números de la fase beta. El modelo de facturación probablemente persista de alguna forma, pero los números específicos podrían cambiar. Incorpora esa incertidumbre en cualquier proyección de costos a largo plazo.

¿Hay un nivel gratuito o prueba?

No existe una prueba dedicada de Managed Agents. Aplican los créditos gratuitos estándar de la API. Para evaluación empresarial, el equipo de ventas de Anthropic puede discutir acuerdos de prueba extendidos — contáctalos a través de la Consola de Claude o en sales@anthropic.com.

Eso es lo que puedo confirmar a partir del 9 de abril de 2026. La estructura de precios es sencilla una vez que separas las dos dimensiones de facturación, pero la variable real es la acumulación de tokens por llamadas a herramientas — ahí es donde tus estimaciones divergirán de la realidad. Todavía estoy ejecutando sesiones de prueba para tener una mejor lectura de cómo interactúan la compactación y el caché a partir de las 2 horas. Más información próximamente.

Artículos anteriores: