Claude Opus 4.6 및 Sonnet 4.6: 알아야 할 모든 것
Anthropic의 Claude Opus 4.6과 Sonnet 4.6에 대한 심층 분석 — 100만 토큰 컨텍스트 창, 적응형 사고, 최첨단 벤치마크를 갖춘 역대 가장 강력한 Claude 모델.
Anthropic이 또 한번 기준을 높였습니다. Claude Opus 4.6(2026년 2월 5일 출시)과 Claude Sonnet 4.6(2026년 2월 17일 출시)을 통해 Claude 모델 패밀리는 코딩, 에이전틱 워크플로우, 장문 컨텍스트 추론, 컴퓨터 사용 영역에서 큰 도약을 이루었으며, 이전 세대와 동일한 가격을 유지합니다.
4.6 세대가 주목할 만한 이유를 살펴봅니다.
Claude Opus 4.6: 역대 가장 강력한 Claude
Opus 4.6은 Anthropic의 플래그십 모델로, 코딩, 연구, 복잡한 추론 등 가장 까다로운 작업을 위해 설계되었습니다.
표준 가격으로 제공되는 1M 컨텍스트 윈도우
처음으로 Opus급 모델이 100만 토큰 컨텍스트 윈도우를 탑재하여 출시되었으며, 장문 컨텍스트에 대한 추가 요금도 없습니다. 전체 코드베이스, 방대한 법률 문서, 대규모 데이터셋을 추가 비용 걱정 없이 단일 프롬프트에 입력할 수 있습니다.
128K 출력 토큰
Opus 4.6은 최대 출력을 64K에서 128K 토큰으로 두 배 늘려, 단일 응답으로 장문 콘텐츠, 상세한 코드, 포괄적인 분석을 생성하는 데 훨씬 실용적입니다.
적응형 사고
확장 사고 예산을 수동으로 조정하는 시대는 끝났습니다. Opus 4.6은 Claude가 언제, 얼마나 깊이 추론할지 동적으로 결정하는 적응형 사고를 도입합니다. low, medium, high(기본값), max 중 하나의 노력 수준을 설정하면 모델이 그에 맞게 추론 예산을 할당합니다.
인터리브드 사고
에이전틱 워크플로우에서 Claude는 이제 도구 호출 사이에서도 사고할 수 있습니다. 미리 모든 것을 계획하고 실행하는 방식 대신, 모델이 각 단계에서 추론하며 중간 결과에 따라 접근 방식을 조정합니다. 이를 통해 다단계 작업의 신뢰성이 크게 향상됩니다.
컨텍스트 압축
대화가 컨텍스트 한도에 근접하면, Opus 4.6은 단순히 잘라내는 대신 오래된 컨텍스트를 자동으로 요약하여 대체합니다. 이를 통해 더 오랜 지속적인 상호작용이 가능하며, 여러 차례에 걸친 코딩 세션, 디버깅, 연구 워크플로우에 특히 유용합니다.
Claude Sonnet 4.6: 격차를 좁히다
Sonnet 4.6은 이제 claude.ai의 Free 및 Pro 사용자를 위한 기본 모델입니다. 이번 릴리스에서 주목할 점은 Sonnet이 Opus 수준의 성능에 얼마나 근접했는가입니다 — 두 모델 간의 격차는 역대 가장 좁습니다.
Sonnet 4.6은 동일한 핵심 개선 사항을 공유합니다: 1M 컨텍스트 윈도우, 적응형 사고, 확장 사고, 인터리브드 사고 — 모두 훨씬 낮은 가격으로 제공됩니다.
벤치마크 하이라이트
수치가 설득력 있는 이야기를 전합니다:
| 벤치마크 | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| SWE-bench Verified (실제 GitHub 이슈) | ~80.8% | 79.6% |
| OSWorld-Verified (컴퓨터 사용) | 72.7% | 72.5% |
| Terminal-Bench 2.0 (에이전틱 코딩) | 전체 1위 | 59.1% |
| Humanity’s Last Exam | 전체 1위 | — |
| ARC-AGI-2 | — | 58.3% (4.3배 향상) |
| BigLaw Bench (법률 추론) | 90.2% | — |
| MRCR v2 8-needle @ 1M (장문 컨텍스트) | 76% | — |
주목할 만한 몇 가지 결과:
- SWE-bench Verified: Sonnet 4.6이 79.6%를 기록하며 Opus의 80.8%에 근접합니다. 대부분의 코딩 작업에서 차이는 미미합니다.
- OSWorld: 두 모델 모두 자율 컴퓨터 사용에서 72% 이상을 기록 — 이전 세대 대비 대폭 향상되었으며 경쟁 모델을 크게 앞섭니다.
- ARC-AGI-2: Sonnet 4.6이 13.6%에서 58.3%로 도약하며 4.3배 향상 — Claude 역사상 단일 세대 최대 개선폭입니다.
- 장문 컨텍스트 검색: Opus 4.6이 1M 컨텍스트에서 8-needle 검색 작업에서 76%를 기록하며 Sonnet 4.5의 18.5%와 비교됩니다. 방대한 문서 깊숙이 묻힌 정보 탐색에서 4배 향상입니다.
가격
두 모델 모두 4.5 이전 세대와 동일한 가격을 유지합니다:
| 모델 | 입력 (1M 토큰당) | 출력 (1M 토큰당) |
|---|---|---|
| Opus 4.6 | $5 | $25 |
| Sonnet 4.6 | $3 | $15 |
| Haiku 4.5 | $1 | $5 |
1M 컨텍스트 윈도우는 Opus와 Sonnet 모두 표준 가격에 포함되며, 프리미엄 티어나 추가 요금이 없습니다.
어떤 모델을 선택해야 할까요
Opus 4.6을 선택해야 하는 경우:
- 복잡한 다단계 추론에서 최대 정확도가 필요할 때
- 방대한 문서에서 정밀한 검색이 필요한 장문 컨텍스트 작업
- 신뢰성이 가장 중요한 에이전틱 코딩 워크플로우
- 최고의 정확도를 요구하는 법률, 과학, 금융 분석
Sonnet 4.6을 선택해야 하는 경우:
- 낮은 비용으로 강력한 코딩과 추론이 필요할 때
- 컴퓨터 사용 및 에이전틱 작업 (Opus와 성능이 거의 동일)
- 성능과 속도 간의 뛰어난 균형이 필요할 때
- 40% 비용 절감 효과가 누적되는 대용량 워크로드
Haiku 4.5를 선택해야 하는 경우:
- 분류, 요약, 간단한 Q&A와 같은 빠르고 가벼운 작업
- 대규모 비용 민감형 애플리케이션
개발자에게 의미하는 바
4.6 세대는 개발자가 Claude로 구축하는 방식의 변화를 의미합니다:
-
에이전틱 워크플로우가 이제 실용적입니다. 인터리브드 사고와 향상된 도구 사용으로 Claude는 훨씬 적은 오류로 복잡한 다단계 작업을 처리할 수 있습니다. Terminal-Bench 및 OSWorld 점수가 이를 확인해줍니다.
-
컨텍스트는 더 이상 병목이 아닙니다. 표준 가격으로 제공되는 1M 토큰과 자동 컨텍스트 압축을 통해 전체 저장소, 문서 컬렉션, 대화 히스토리를 추론하는 애플리케이션을 구축할 수 있습니다.
-
가치 티어가 특히 강력합니다. Sonnet 4.6은 대부분의 코딩 및 컴퓨터 사용 벤치마크에서 Opus의 1~2% 이내 성능을 발휘합니다. 많은 프로덕션 워크로드에서 현명한 기본 선택입니다.
-
적응형 사고로 통합이 간소화됩니다. 작업별로 사고 예산을 조정하는 대신, 노력 수준을 설정하고 나머지는 모델에 맡기면 됩니다. 이를 통해 프롬프트 엔지니어링 오버헤드가 줄고 성능이 더 일관됩니다.
결론
Claude Opus 4.6과 Sonnet 4.6은 단일 Claude 세대에서 가장 큰 성능 도약을 이루었습니다. 1M 컨텍스트 윈도우, 적응형 사고, 인터리브드 추론은 단순한 스펙시트 개선이 아니라 구축 가능한 것을 근본적으로 바꿉니다.
Opus 4.6은 전 분야에 걸쳐 새로운 기준을 제시합니다. Sonnet 4.6은 60% 가격으로 놀라울 만큼 근접한 성능을 발휘합니다. 가벼운 작업에는 여전히 Haiku 4.5를 사용할 수 있어, Claude 전체 라인업이 예산형부터 최첨단까지 모든 사용 사례를 커버합니다.
모델은 현재 Claude API, claude.ai, Amazon Bedrock, Google Cloud Vertex AI 등 파트너 플랫폼을 통해 이용 가능합니다.



