← 博客

Claude Opus 4.6 与 Sonnet 4.6:你需要了解的一切

深入解析 Anthropic 的 Claude Opus 4.6 与 Sonnet 4.6——迄今为止最强大的 Claude 模型,支持 100 万 token 上下文窗口、自适应思考模式,并在多项基准测试中达到业界顶尖水平。

2 min read

Anthropic 再次提升了标杆。随着 Claude Opus 4.6(2026年2月5日)和 Claude Sonnet 4.6(2026年2月17日)的发布,Claude 模型家族在编程、智能体工作流、长上下文推理和计算机使用等方面实现了重大突破——同时价格与上一代保持不变。

以下是 4.6 代实现重大飞跃的原因。

Claude Opus 4.6:迄今最强的 Claude

Opus 4.6 是 Anthropic 的旗舰模型,专为编程、研究和复杂推理等最苛刻的任务而设计。

标准定价下的 1M 上下文窗口

Opus 级模型首次搭载了 100 万 token 上下文窗口——且无需支付长上下文附加费。这意味着你可以在单个提示词中输入完整的代码库、冗长的法律文件或庞大的数据集,无需担心额外费用。

128K 输出 Token

Opus 4.6 将最大输出量从 64K 翻倍至 128K token,使得在单次响应中生成长篇内容、详细代码或综合分析变得更加实用。

自适应思考

手动调整扩展思考预算的时代已经过去。Opus 4.6 引入了自适应思考,Claude 能够动态决定何时以及多深入地进行推理。你可以设置四种努力级别之一——低、中、高(默认)或最高——让模型相应地分配其推理预算。

交错思考

在智能体工作流中,Claude 现在可以在工具调用之间进行思考。模型不再是提前规划一切再执行,而是在每个步骤中进行推理,根据中间结果调整其方法。这使得多步骤任务的可靠性大幅提升。

上下文压缩

当对话接近上下文限制时,Opus 4.6 会自动摘要并替换较旧的上下文,而不是简单地截断。这使得更长时间的持续交互成为可能——对于跨越多轮的编程会话、调试和研究工作流尤为重要。

Claude Sonnet 4.6:缩小差距

Sonnet 4.6 现在是 claude.ai 免费版和专业版用户的默认模型。此次发布令人瞩目之处在于 Sonnet 与 Opus 级性能的接近程度——两者之间的差距是有史以来最小的。

Sonnet 4.6 共享相同的核心改进:1M 上下文窗口自适应思考扩展思考交错思考。且价格显著更低。

基准测试亮点

数据讲述了一个引人注目的故事:

基准测试Opus 4.6Sonnet 4.6
SWE-bench Verified(真实 GitHub 问题)~80.8%79.6%
OSWorld-Verified(计算机使用)72.7%72.5%
Terminal-Bench 2.0(智能体编程)整体第一59.1%
Humanity’s Last Exam整体第一
ARC-AGI-258.3%(提升 4.3 倍)
BigLaw Bench(法律推理)90.2%
MRCR v2 8-needle @ 1M(长上下文)76%

几个值得关注的亮点:

  • SWE-bench Verified:Sonnet 4.6 得分 79.6%,几乎与 Opus 的 80.8% 持平。对于大多数编程任务,差距可以忽略不计。
  • OSWorld:两个模型在自主计算机使用上的得分均超过 72%——与上一代相比大幅跃升,远超竞争模型。
  • ARC-AGI-2:Sonnet 4.6 从 13.6% 跃升至 58.3%,提升了 4.3 倍——这是 Claude 历史上单代最大提升幅度。
  • 长上下文检索:Opus 4.6 在 1M 上下文的 8 针检索任务中得分 76%,而 Sonnet 4.5 仅为 18.5%。在长文档深处查找信息的能力提升了 4 倍。

定价

两个模型均维持与 4.5 版本相同的定价:

模型输入(每 100 万 token)输出(每 100 万 token)
Opus 4.6$5$25
Sonnet 4.6$3$15
Haiku 4.5$1$5

1M 上下文窗口已包含在 Opus 和 Sonnet 的标准定价中——无需高级套餐或附加费。

如何选择模型

选择 Opus 4.6 的场景:

  • 复杂多步骤推理需要最高准确性
  • 需要在大量文档中精确检索的长上下文任务
  • 可靠性至关重要的智能体编程工作流
  • 要求最高准确性的法律、科学或财务分析

选择 Sonnet 4.6 的场景:

  • 以更低成本实现强大的编程和推理能力
  • 计算机使用和智能体任务(性能与 Opus 几乎相同)
  • 能力与速度之间的良好平衡
  • 40% 的成本节省在高量工作负载中积累效果显著

选择 Haiku 4.5 的场景:

  • 分类、摘要或简单问答等快速轻量级任务
  • 大规模预算敏感型应用

对开发者的意义

4.6 代代表了开发者使用 Claude 构建应用方式的转变:

  1. 智能体工作流现已切实可行。 交错思考和改进的工具使用意味着 Claude 能够以更少的错误处理复杂的多步骤任务。Terminal-Bench 和 OSWorld 的得分证实了这一点。

  2. 上下文不再是瓶颈。 凭借标准定价下的 1M token 和自动上下文压缩,你可以构建能够对整个代码库、文档集合或对话历史进行推理的应用程序。

  3. 性价比层级异常强劲。 Sonnet 4.6 在大多数编程和计算机使用基准测试中的表现与 Opus 相差 1-2%。对于许多生产工作负载来说,它是明智的默认选择。

  4. 自适应思考简化了集成。 无需针对每个任务调整思考预算,只需设置努力级别,让模型处理其余的事情。这降低了提示工程的开销,使性能更加一致。

结语

Claude Opus 4.6 和 Sonnet 4.6 实现了单代 Claude 中最大的能力飞跃。1M 上下文窗口、自适应思考和交错推理不仅仅是规格表上的改进——它们从根本上改变了你能够构建的内容。

Opus 4.6 在各项基准测试中树立了新标准。Sonnet 4.6 以 60% 的价格达到了非常接近的水平。而 Haiku 4.5 仍可用于轻量级任务,完整的 Claude 产品线涵盖了从经济实惠到前沿探索的每一个使用场景。

这些模型现已通过 Claude APIclaude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在内的合作伙伴平台提供使用。