Claude Opus 4.6 与 Sonnet 4.6:你需要了解的一切
深入解析 Anthropic 的 Claude Opus 4.6 与 Sonnet 4.6——迄今为止最强大的 Claude 模型,支持 100 万 token 上下文窗口、自适应思考模式,并在多项基准测试中达到业界顶尖水平。
Anthropic 再次提升了标杆。随着 Claude Opus 4.6(2026年2月5日)和 Claude Sonnet 4.6(2026年2月17日)的发布,Claude 模型家族在编程、智能体工作流、长上下文推理和计算机使用等方面实现了重大突破——同时价格与上一代保持不变。
以下是 4.6 代实现重大飞跃的原因。
Claude Opus 4.6:迄今最强的 Claude
Opus 4.6 是 Anthropic 的旗舰模型,专为编程、研究和复杂推理等最苛刻的任务而设计。
标准定价下的 1M 上下文窗口
Opus 级模型首次搭载了 100 万 token 上下文窗口——且无需支付长上下文附加费。这意味着你可以在单个提示词中输入完整的代码库、冗长的法律文件或庞大的数据集,无需担心额外费用。
128K 输出 Token
Opus 4.6 将最大输出量从 64K 翻倍至 128K token,使得在单次响应中生成长篇内容、详细代码或综合分析变得更加实用。
自适应思考
手动调整扩展思考预算的时代已经过去。Opus 4.6 引入了自适应思考,Claude 能够动态决定何时以及多深入地进行推理。你可以设置四种努力级别之一——低、中、高(默认)或最高——让模型相应地分配其推理预算。
交错思考
在智能体工作流中,Claude 现在可以在工具调用之间进行思考。模型不再是提前规划一切再执行,而是在每个步骤中进行推理,根据中间结果调整其方法。这使得多步骤任务的可靠性大幅提升。
上下文压缩
当对话接近上下文限制时,Opus 4.6 会自动摘要并替换较旧的上下文,而不是简单地截断。这使得更长时间的持续交互成为可能——对于跨越多轮的编程会话、调试和研究工作流尤为重要。
Claude Sonnet 4.6:缩小差距
Sonnet 4.6 现在是 claude.ai 免费版和专业版用户的默认模型。此次发布令人瞩目之处在于 Sonnet 与 Opus 级性能的接近程度——两者之间的差距是有史以来最小的。
Sonnet 4.6 共享相同的核心改进:1M 上下文窗口、自适应思考、扩展思考和交错思考。且价格显著更低。
基准测试亮点
数据讲述了一个引人注目的故事:
| 基准测试 | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| SWE-bench Verified(真实 GitHub 问题) | ~80.8% | 79.6% |
| OSWorld-Verified(计算机使用) | 72.7% | 72.5% |
| Terminal-Bench 2.0(智能体编程) | 整体第一 | 59.1% |
| Humanity’s Last Exam | 整体第一 | — |
| ARC-AGI-2 | — | 58.3%(提升 4.3 倍) |
| BigLaw Bench(法律推理) | 90.2% | — |
| MRCR v2 8-needle @ 1M(长上下文) | 76% | — |
几个值得关注的亮点:
- SWE-bench Verified:Sonnet 4.6 得分 79.6%,几乎与 Opus 的 80.8% 持平。对于大多数编程任务,差距可以忽略不计。
- OSWorld:两个模型在自主计算机使用上的得分均超过 72%——与上一代相比大幅跃升,远超竞争模型。
- ARC-AGI-2:Sonnet 4.6 从 13.6% 跃升至 58.3%,提升了 4.3 倍——这是 Claude 历史上单代最大提升幅度。
- 长上下文检索:Opus 4.6 在 1M 上下文的 8 针检索任务中得分 76%,而 Sonnet 4.5 仅为 18.5%。在长文档深处查找信息的能力提升了 4 倍。
定价
两个模型均维持与 4.5 版本相同的定价:
| 模型 | 输入(每 100 万 token) | 输出(每 100 万 token) |
|---|---|---|
| Opus 4.6 | $5 | $25 |
| Sonnet 4.6 | $3 | $15 |
| Haiku 4.5 | $1 | $5 |
1M 上下文窗口已包含在 Opus 和 Sonnet 的标准定价中——无需高级套餐或附加费。
如何选择模型
选择 Opus 4.6 的场景:
- 复杂多步骤推理需要最高准确性
- 需要在大量文档中精确检索的长上下文任务
- 可靠性至关重要的智能体编程工作流
- 要求最高准确性的法律、科学或财务分析
选择 Sonnet 4.6 的场景:
- 以更低成本实现强大的编程和推理能力
- 计算机使用和智能体任务(性能与 Opus 几乎相同)
- 能力与速度之间的良好平衡
- 40% 的成本节省在高量工作负载中积累效果显著
选择 Haiku 4.5 的场景:
- 分类、摘要或简单问答等快速轻量级任务
- 大规模预算敏感型应用
对开发者的意义
4.6 代代表了开发者使用 Claude 构建应用方式的转变:
-
智能体工作流现已切实可行。 交错思考和改进的工具使用意味着 Claude 能够以更少的错误处理复杂的多步骤任务。Terminal-Bench 和 OSWorld 的得分证实了这一点。
-
上下文不再是瓶颈。 凭借标准定价下的 1M token 和自动上下文压缩,你可以构建能够对整个代码库、文档集合或对话历史进行推理的应用程序。
-
性价比层级异常强劲。 Sonnet 4.6 在大多数编程和计算机使用基准测试中的表现与 Opus 相差 1-2%。对于许多生产工作负载来说,它是明智的默认选择。
-
自适应思考简化了集成。 无需针对每个任务调整思考预算,只需设置努力级别,让模型处理其余的事情。这降低了提示工程的开销,使性能更加一致。
结语
Claude Opus 4.6 和 Sonnet 4.6 实现了单代 Claude 中最大的能力飞跃。1M 上下文窗口、自适应思考和交错推理不仅仅是规格表上的改进——它们从根本上改变了你能够构建的内容。
Opus 4.6 在各项基准测试中树立了新标准。Sonnet 4.6 以 60% 的价格达到了非常接近的水平。而 Haiku 4.5 仍可用于轻量级任务,完整的 Claude 产品线涵盖了从经济实惠到前沿探索的每一个使用场景。
这些模型现已通过 Claude API、claude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在内的合作伙伴平台提供使用。



