Claude Opus 4.6 与 Sonnet 4.6：你需要了解的一切

Anthropic 再次提升了标杆。随着 Claude Opus 4.6（2026年2月5日）和 Claude Sonnet 4.6（2026年2月17日）的发布，Claude 模型家族在编程、智能体工作流、长上下文推理和计算机使用等方面实现了重大突破——同时价格与上一代保持不变。

以下是 4.6 代实现重大飞跃的原因。

Claude Opus 4.6：迄今最强的 Claude

Opus 4.6 是 Anthropic 的旗舰模型，专为编程、研究和复杂推理等最苛刻的任务而设计。

标准定价下的 1M 上下文窗口

Opus 级模型首次搭载了 100 万 token 上下文窗口——且无需支付长上下文附加费。这意味着你可以在单个提示词中输入完整的代码库、冗长的法律文件或庞大的数据集，无需担心额外费用。

128K 输出 Token

Opus 4.6 将最大输出量从 64K 翻倍至 128K token，使得在单次响应中生成长篇内容、详细代码或综合分析变得更加实用。

自适应思考

手动调整扩展思考预算的时代已经过去。Opus 4.6 引入了自适应思考，Claude 能够动态决定何时以及多深入地进行推理。你可以设置四种努力级别之一——低、中、高（默认）或最高——让模型相应地分配其推理预算。

交错思考

在智能体工作流中，Claude 现在可以在工具调用之间进行思考。模型不再是提前规划一切再执行，而是在每个步骤中进行推理，根据中间结果调整其方法。这使得多步骤任务的可靠性大幅提升。

上下文压缩

当对话接近上下文限制时，Opus 4.6 会自动摘要并替换较旧的上下文，而不是简单地截断。这使得更长时间的持续交互成为可能——对于跨越多轮的编程会话、调试和研究工作流尤为重要。

Claude Sonnet 4.6：缩小差距

Sonnet 4.6 现在是 claude.ai 免费版和专业版用户的默认模型。此次发布令人瞩目之处在于 Sonnet 与 Opus 级性能的接近程度——两者之间的差距是有史以来最小的。

Sonnet 4.6 共享相同的核心改进：1M 上下文窗口、自适应思考、扩展思考和交错思考。且价格显著更低。

基准测试亮点

数据讲述了一个引人注目的故事：

基准测试	Opus 4.6	Sonnet 4.6
SWE-bench Verified（真实 GitHub 问题）	~80.8%	79.6%
OSWorld-Verified（计算机使用）	72.7%	72.5%
Terminal-Bench 2.0（智能体编程）	整体第一	59.1%
Humanity’s Last Exam	整体第一	—
ARC-AGI-2	—	58.3%（提升 4.3 倍）
BigLaw Bench（法律推理）	90.2%	—
MRCR v2 8-needle @ 1M（长上下文）	76%	—

几个值得关注的亮点：

SWE-bench Verified：Sonnet 4.6 得分 79.6%，几乎与 Opus 的 80.8% 持平。对于大多数编程任务，差距可以忽略不计。
OSWorld：两个模型在自主计算机使用上的得分均超过 72%——与上一代相比大幅跃升，远超竞争模型。
ARC-AGI-2：Sonnet 4.6 从 13.6% 跃升至 58.3%，提升了 4.3 倍——这是 Claude 历史上单代最大提升幅度。
长上下文检索：Opus 4.6 在 1M 上下文的 8 针检索任务中得分 76%，而 Sonnet 4.5 仅为 18.5%。在长文档深处查找信息的能力提升了 4 倍。

定价

两个模型均维持与 4.5 版本相同的定价：

模型	输入（每 100 万 token）	输出（每 100 万 token）
Opus 4.6	$5	$25
Sonnet 4.6	$3	$15
Haiku 4.5	$1	$5

1M 上下文窗口已包含在 Opus 和 Sonnet 的标准定价中——无需高级套餐或附加费。

如何选择模型

选择 Opus 4.6 的场景：

复杂多步骤推理需要最高准确性
需要在大量文档中精确检索的长上下文任务
可靠性至关重要的智能体编程工作流
要求最高准确性的法律、科学或财务分析

选择 Sonnet 4.6 的场景：

以更低成本实现强大的编程和推理能力
计算机使用和智能体任务（性能与 Opus 几乎相同）
能力与速度之间的良好平衡
40% 的成本节省在高量工作负载中积累效果显著

选择 Haiku 4.5 的场景：

分类、摘要或简单问答等快速轻量级任务
大规模预算敏感型应用

对开发者的意义

4.6 代代表了开发者使用 Claude 构建应用方式的转变：

智能体工作流现已切实可行。 交错思考和改进的工具使用意味着 Claude 能够以更少的错误处理复杂的多步骤任务。Terminal-Bench 和 OSWorld 的得分证实了这一点。
上下文不再是瓶颈。 凭借标准定价下的 1M token 和自动上下文压缩，你可以构建能够对整个代码库、文档集合或对话历史进行推理的应用程序。
性价比层级异常强劲。 Sonnet 4.6 在大多数编程和计算机使用基准测试中的表现与 Opus 相差 1-2%。对于许多生产工作负载来说，它是明智的默认选择。
自适应思考简化了集成。 无需针对每个任务调整思考预算，只需设置努力级别，让模型处理其余的事情。这降低了提示工程的开销，使性能更加一致。

结语

Claude Opus 4.6 和 Sonnet 4.6 实现了单代 Claude 中最大的能力飞跃。1M 上下文窗口、自适应思考和交错推理不仅仅是规格表上的改进——它们从根本上改变了你能够构建的内容。

Opus 4.6 在各项基准测试中树立了新标准。Sonnet 4.6 以 60% 的价格达到了非常接近的水平。而 Haiku 4.5 仍可用于轻量级任务，完整的 Claude 产品线涵盖了从经济实惠到前沿探索的每一个使用场景。

这些模型现已通过 Claude API、claude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在内的合作伙伴平台提供使用。

Claude Opus 4.6：迄今最强的 Claude

标准定价下的 1M 上下文窗口

128K 输出 Token

自适应思考

交错思考

上下文压缩

Claude Sonnet 4.6：缩小差距

基准测试亮点

定价

如何选择模型

对开发者的意义

结语

相关文章

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智谱AI最新模型综合评测

Phota Edit 现已登陆WaveSpeedAI

Phota Enhance现已登陆WaveSpeedAI

Phota Text-to-Image现已登陆WaveSpeedAI

Claude Mythos（Opus 5）泄露：我们目前所知道的一切

Suno vs MiniMax Music vs Google Lyria 3：AI音乐生成对比评测