Claude Managed Agents 가격 및 베타 한도

어제 우리 에이전트 인프라 비용 시트를 꺼내서 한참 들여다봤습니다. 저는 Dora입니다. 우리는 자체 호스팅 에이전트 루프 — 툴 오케스트레이션, 샌드박싱, 오류 복구, 체크포인트 로직 — 를 운영하고 있는데, 이것이 무너지지 않게 유지하는 데만 엔지니어 시간의 약 0.4를 잡아먹습니다. Anthropic이 4월 8일에 Claude Managed Agents를 출시했을 때, 제가 처음 한 일은 기능 목록을 읽는 것이 아니었습니다. 가격 페이지를 열었습니다.

이 글은 실제로 숫자를 계산했을 때 청구 구조가 어떻게 보이는지, 속도 제한이 어디에 있는지, 베타 라벨 때문에 아직 불확실한 것은 무엇인지를 기록합니다.

Claude Managed Agents 가격 책정 방식

이중 청구: 토큰 + 세션 런타임

Managed Agents 청구에는 두 가지 차원이 있습니다: 토큰과 세션 런타임. 토큰은 표준 Claude API 모델 요금으로 청구됩니다 — Messages API를 통해 지불하는 것과 동일한 백만 토큰당 가격입니다. Opus 4.6은 입력 $5 / 출력 $25 per MTok입니다. Sonnet 4.6은 $3 / $15입니다. 프롬프트 캐싱 배율은 동일하게 적용됩니다: 캐시 읽기는 기본 입력 가격의 10% 비용이 듭니다.

두 번째 차원은 관리형 컨테이너에 대한 인프라 비용입니다.

세션 런타임: 세션-시간당 $0.08

런타임 요금은 활성 런타임에 대해 세션-시간당 $0.08이며, 소비량 기준으로 청구됩니다. 이것이 에이전트가 실행되는 샌드박스 컨테이너의 인프라 비용입니다.

주목할 만한 세부 사항: Managed Agents를 사용할 때 세션 런타임은 Code Execution 컨테이너-시간 청구 모델을 대체합니다 — 이중으로 청구되지 않습니다.

웹 검색: 1,000회 검색당 $10

Managed Agents 세션 내에서 트리거된 웹 검색은 표준 1,000회 검색당 $10이 청구됩니다. 독립형 API와 동일한 요금입니다. 세션당 수십 개의 웹 검색을 실행하는 리서치 에이전트는 이 항목을 체감하게 될 것입니다.

Claude API를 통해서만 사용 가능

Managed Agents는 Claude Platform을 통해 직접 청구됩니다. 서드파티 플랫폼 가격 — Bedrock, Vertex AI, Foundry — 은 여기에 적용되지 않습니다. 해당 프로바이더 중 하나를 통해 에이전트를 실행하는 경우, 이것은 별도의 청구 관계입니다.

세션 런타임 비용: 실제로 무엇을 의미하는가

세션 런타임으로 계산되는 것

런타임은 밀리초 단위로 측정되며, 세션 상태가 running인 동안에만 누적됩니다. 유휴 시간 — 다음 메시지 대기, 툴 확인 대기, 또는 종료 상태로 대기 — 은 계산되지 않습니다. 에이전트가 아무것도 하지 않을 때는 미터가 일시 정지됩니다.

이것은 들리는 것보다 더 중요합니다. 작업을 마치고 사용자 입력을 20분 기다리는 에이전트는 그 20분 동안 시간당 $0.08을 소모하지 않습니다.

장시간 실행 에이전트 대 단기 작업 에이전트

Sonnet 4.6에서의 10분 파일 처리 작업은 런타임 비용이 약 $0.013입니다. 거의 눈에 띄지 않습니다. 토큰 비용이 지배적입니다.

Opus 4.6에서의 4시간 리서치 에이전트 세션은 다릅니다. 런타임만 $0.32이지만, 에이전트가 복잡한 툴 체인을 활발하게 처리하고 있다면 입력 토큰 200k+와 출력 토큰 50k+를 소모할 수 있습니다. 캐싱이 적용되기 전에 토큰 청구만으로 $1.25를 초과할 수 있습니다.

예상 비용 예시

다음은 Anthropic의 가격 문서의 계산 예시입니다: Opus 4.6에서 입력 토큰 50,000개와 출력 토큰 15,000개를 소비하는 1시간 코딩 세션의 총 비용은 약 $0.70입니다. 프롬프트 캐싱이 활성화되어 있고 해당 입력 중 40,000개가 캐시에 적중하면 의미 있게 줄어듭니다. 런타임은 총액 중 $0.08을 차지합니다.

진짜 질문은 “시간당 $0.08이 비싼가?”가 아닙니다. “내 에이전트의 툴 루프가 토큰을 얼마나 소모하는가?”입니다. 모든 bash 명령, 파일 읽기, 웹 fetch, 웹 검색은 토큰을 기여합니다. 수십 개의 툴 호출이 있는 고도로 에이전틱한 세션은 컨텍스트를 빠르게 소모합니다.

속도 제한 및 할당량

생성 엔드포인트: 분당 60회 요청

Managed Agents 엔드포인트는 조직별로 속도가 제한되며, 이 제한은 Messages API 속도 제한과 별개입니다. 생성 엔드포인트는 조직 수준에서 분당 60회 요청(RPM)을 허용합니다.

읽기 엔드포인트: 분당 600회 요청

읽기 엔드포인트는 조직 수준에서 분당 600회 요청으로 제한됩니다. 많은 동시 에이전트에 걸쳐 세션 상태를 자주 폴링하는 경우, 이것이 먼저 도달하게 될 상한선입니다.

조직 수준 지출 한도 및 티어 기반 속도 제한도 적용됨

표준 티어 기반 속도 제한이 추가로 적용됩니다. API 티어의 분당 토큰 및 분당 요청 제한은 에이전트가 수행하는 기본 모델 호출에도 여전히 적용됩니다.

더 높은 제한을 요청하는 방법

더 많은 여유 공간이 필요한 프로덕션 워크로드의 경우, Anthropic은 약정 지출이 있는 Priority Tier를 제공합니다. 맞춤 속도 제한 조정을 위해 Claude Console을 통해 영업팀에 문의하세요. Console의 속도 제한 차트는 실시간 여유 공간을 보여줍니다 — 429 오류에 도달하기 전에 제한에 근접하는 시점을 확인하는 데 활용하세요.

베타 헤더와 GA 시 변경되는 사항

managed-agents-2026-04-01: 모든 요청에 필수

모든 Managed Agents 엔드포인트는 managed-agents-2026-04-01 베타 헤더를 요구합니다. SDK는 자동으로 설정합니다. 원시 cURL이나 커스텀 HTTP 클라이언트를 사용하는 경우, 모든 요청에 수동으로 추가하세요.

베타 기간의 불확실성

공식 문서에는 출력을 개선하기 위해 릴리스 간에 동작이 개선될 수 있다고 명시되어 있습니다. 이것은 표준적인 베타 주의 사항입니다.

이것이 가격 책정에 의미하는 바를 정확히 말씀드리고 싶습니다. 이것은 Anthropic이 GA 시 가격을 변경할 계획이라는 발표가 아닙니다. 현재 수치가 영구적인 계약상 약정이 아니라는 의미입니다 — 이는 어디서나 베타 기간 가격 책정에 해당하는 사항입니다. 그 불확실성을 고려하여 비용 모델을 구축하되, 임박한 가격 변경의 신호로 읽지 마세요.

리서치 프리뷰 기능은 게이팅 유지

특정 기능들 — 결과, 멀티 에이전트 조율, 메모리 — 은 리서치 프리뷰 단계에 있으며 별도의 액세스 요청이 필요합니다. 이것들이 프리뷰를 벗어날 때 추가 비용 영향이 있을 수 있습니다. 아직 알 수 없습니다. Anthropic 외부의 누구도 모릅니다.

Batch API 및 캐싱 상호작용

Batch API: Managed Agents에서 사용 불가

이것이 사람들을 당황하게 만들 부분입니다. Batch API를 포함한 Messages API 수정자는 Claude Managed Agents 세션에 적용되지 않습니다. 대량 처리를 위해 50% 할인에 의존해 왔다면, Managed Agents로는 해당 비용 구조를 복제할 수 없습니다. 이것은 확인된 제한 사항이며, 로드맵 항목이 아닙니다.

프롬프트 캐싱: 내장됨

프롬프트 캐싱은 Managed Agents 하네스에 내장되어 있습니다. 표준 배율이 적용됩니다 — 5분 TTL에 대해 캐시 쓰기는 기본 입력의 1.25배, 캐시 읽기는 0.1배입니다. 시스템 프롬프트와 초기 컨텍스트가 많은 툴 호출에 걸쳐 재사용되는 장시간 세션의 경우, 캐싱은 토큰 청구를 의미 있게 줄일 수 있습니다.

압축: 내장됨

하네스는 효율적인 에이전트 출력을 위한 내장 압축 및 기타 성능 최적화를 지원합니다. 컨텍스트 창 한도에 근접할 만큼 오래 실행되는 세션의 경우, 압축은 이전 대화 턴을 자동으로 요약합니다. 이를 통해 커스텀 잘라내기 전략을 구축하지 않고도 토큰 누적을 관리하는 데 도움이 됩니다.

숨겨진 비용 고려 사항

툴 실행 오버헤드

모든 툴 호출은 토큰을 생성합니다. Bash 명령, 파일 읽기, 웹 fetch — 각각은 세션 합계에 입력 및 출력 토큰을 추가합니다. 단일 세션에서 30개 이상의 툴 호출을 연결하는 리서치 에이전트는 시간당 $0.08 런타임 비용을 압도하는 토큰 비용을 누적할 것입니다.

1,000회 호출당 $10의 웹 검색은 호출당 비용 중 가장 눈에 띕니다. 하지만 덜 눈에 띄는 것은 툴 결과가 컨텍스트로 돌아오는 토큰 오버헤드입니다. 긴 페이지를 반환하는 웹 fetch는 수천 개의 토큰을 세션에 쏟아붓습니다.

리서치 프리뷰 기능: 잠재적 비용 배수

에이전트가 다른 에이전트를 생성하고 지시할 수 있는 멀티 에이전트 조율은 리서치 프리뷰에서 사용 가능합니다. 각 하위 에이전트는 자체 토큰 소비와 런타임 미터를 가진 자체 세션을 실행합니다. 비용 배수는 생성되는 하위 에이전트의 수와 각각의 실행 시간에 따라 달라집니다. 하위 에이전트 세션에 별도의 런타임 비용이 부과되는지 아니면 부모의 비용을 공유하는지 확인할 수 없었습니다. 이것은 주목해야 할 사항입니다.

FAQ

Claude Managed Agents는 베타 기간 동안 무료인가요?

아닙니다. 소비 기반 가격 책정이 현재 활성화되어 있습니다 — 표준 토큰 요금에 활성 런타임에 대해 세션-시간당 $0.08이 추가됩니다. Managed Agents에 특화된 무료 티어는 없습니다. 새로운 API 사용자는 초기 테스트를 위한 소량의 무료 크레딧을 받지만, 이것은 표준 API 온보딩 크레딧이며 Managed Agents 특전이 아닙니다.

비동기 에이전트의 세션 런타임 청구는 어떻게 작동하나요?

런타임은 세션 상태가 running인 동안에만 누적됩니다. 에이전트가 작업을 마치고 유휴 상태로 진입하면 — 다음 사용자 메시지 또는 툴 확인을 기다리는 경우 — 그 유휴 시간은 비용이 들지 않습니다. 미터는 일시 정지되고 처리가 재시작될 때 재개됩니다. 측정은 밀리초 단위입니다.

Managed Agents에서 Batch API 할인을 사용할 수 있나요?

아닙니다. 50% Batch API 할인은 적용되지 않습니다. 배치 수준의 절감이 워크플로우에 중요한 경우, 관리형 호스팅의 인프라 절감이 배치 할인 손실을 상쇄하는지 평가하세요. 일부 워크로드의 경우, 배치 처리와 함께 Messages API에서 자체 에이전트 루프를 실행하는 것이 여전히 더 저렴할 것입니다.

베타가 종료되면 청구에 어떤 일이 발생하나요?

Anthropic은 특정 GA 가격을 약정하지 않았습니다. 현재 세션-시간당 $0.08과 표준 토큰 요금은 베타 기간 수치입니다. 청구 모델은 어떤 형태로든 지속될 가능성이 높지만, 구체적인 수치는 변경될 수 있습니다. 장기 비용 예측에 그 불확실성을 고려하세요.

무료 티어나 트라이얼이 있나요?

전용 Managed Agents 트라이얼은 없습니다. 표준 API 무료 크레딧이 적용됩니다. 엔터프라이즈 평가의 경우, Anthropic 영업팀이 확장 트라이얼 조정을 논의할 수 있습니다 — Claude Console을 통하거나 sales@anthropic.com으로 연락하세요.

이것이 2026년 4월 9일 기준으로 확인할 수 있는 내용입니다. 두 가지 청구 차원을 분리하면 가격 구조는 간단하지만, 실제 변수는 툴 호출 토큰 누적입니다 — 그곳에서 예상치가 현실과 달라질 것입니다. 압축과 캐싱이 2시간 이상 구간에서 어떻게 상호작용하는지 더 잘 파악하기 위해 아직 테스트 세션을 실행하고 있습니다. 더 많은 내용이 올 것입니다.

이전 포스트: