← 部落格

Claude Opus 4.6 與 Sonnet 4.6:你需要知道的一切

深入解析 Anthropic 的 Claude Opus 4.6 與 Sonnet 4.6——迄今最強大的 Claude 模型,具備 100 萬 token 上下文視窗、自適應思考能力,以及頂尖的基準測試成績。

2 min read

Anthropic 再次提高了標準。隨著 Claude Opus 4.6(2026年2月5日)和 Claude Sonnet 4.6(2026年2月17日)的發布,Claude 模型系列在程式碼編寫、代理工作流程、長上下文推理和電腦使用方面帶來了重大提升——同時保持與上一代相同的定價。

以下是 4.6 世代成為重大飛躍的原因。

Claude Opus 4.6:迄今最強大的 Claude

Opus 4.6 是 Anthropic 的旗艦模型,專為程式碼編寫、研究和複雜推理中最具挑戰性的任務而設計。

標準定價下的 100 萬 Token 上下文視窗

首次推出的 Opus 級別模型配備了 100 萬 token 上下文視窗——且不收取長上下文附加費用。這意味著你可以將整個程式碼庫、冗長的法律文件或大型資料集輸入單一提示詞,無需擔心額外費用。

128K 輸出 Token

Opus 4.6 將最大輸出從 64K 提升至 128K token,使其在單次回應中生成長篇內容、詳細程式碼或全面分析時更加實用。

自適應思考

手動調整延伸思考預算的時代已經過去。Opus 4.6 引入了自適應思考,Claude 能夠動態決定何時以及如何深度推理。你可以設定四個努力等級之一——低、中、高(預設)或最高——讓模型相應地分配其推理預算。

交錯思考

在代理工作流程中,Claude 現在可以在工具呼叫之間進行思考。模型不再預先規劃所有內容再執行,而是在每個步驟進行推理,根據中間結果調整方式。這使多步驟任務的可靠性大幅提升。

上下文壓縮

當對話接近上下文限制時,Opus 4.6 會自動摘要並替換舊的上下文,而不是直接截斷。這實現了更長時間的持續互動——對於跨越多個回合的程式碼編寫、除錯和研究工作流程尤為寶貴。

Claude Sonnet 4.6:縮小差距

Sonnet 4.6 現在是 claude.ai 免費版和專業版用戶的預設模型。這次發布最令人矚目的是 Sonnet 與 Opus 級別效能的差距有多小——兩者之間的差距是有史以來最小的。

Sonnet 4.6 共享相同的核心改進:100 萬上下文視窗自適應思考延伸思考交錯思考。所有這些都以顯著更低的價格提供。

基準測試亮點

數字說明了一切:

基準測試Opus 4.6Sonnet 4.6
SWE-bench Verified(真實 GitHub 問題)~80.8%79.6%
OSWorld-Verified(電腦使用)72.7%72.5%
Terminal-Bench 2.0(代理程式碼編寫)總體第一59.1%
Humanity’s Last Exam總體第一
ARC-AGI-258.3%(提升 4.3 倍)
BigLaw Bench(法律推理)90.2%
MRCR v2 8-needle @ 1M(長上下文)76%

幾個值得關注的亮點:

  • SWE-bench Verified:Sonnet 4.6 得分 79.6%,幾乎與 Opus 的 80.8% 持平。對於大多數程式碼編寫任務,差異可以忽略不計。
  • OSWorld:兩個模型在自主電腦使用上的得分均超過 72%——與上一代相比有巨大飛躍,遠超競爭模型。
  • ARC-AGI-2:Sonnet 4.6 從 13.6% 跳升至 58.3%,提升 4.3 倍——是 Claude 歷史上單代最大的進步。
  • 長上下文檢索:Opus 4.6 在 100 萬上下文的 8 針檢索任務中得分 76%,而 Sonnet 4.5 僅有 18.5%。在長文件深處尋找資訊的能力提升了 4 倍。

定價

兩個模型保持與其 4.5 前代相同的定價:

模型輸入(每 100 萬 token)輸出(每 100 萬 token)
Opus 4.6$5$25
Sonnet 4.6$3$15
Haiku 4.5$1$5

Opus 和 Sonnet 的 100 萬上下文視窗均以標準定價提供——沒有進階方案或附加費用。

何時選用哪個模型

選擇 Opus 4.6 的情況:

  • 複雜多步驟推理需要最高準確度
  • 需要在大量文件中精確檢索的長上下文任務
  • 可靠性至關重要的代理程式碼編寫工作流程
  • 要求最高準確度的法律、科學或財務分析

選擇 Sonnet 4.6 的情況:

  • 以較低成本進行強大的程式碼編寫和推理
  • 電腦使用和代理任務(效能與 Opus 幾乎相同)
  • 在能力和速度之間取得良好平衡
  • 高容量工作負載中 40% 的成本節省積少成多

選擇 Haiku 4.5 的情況:

  • 分類、摘要或簡單問答等快速輕量任務
  • 大規模應用中對預算敏感的場景

這對開發者意味著什麼

4.6 世代代表了開發者使用 Claude 構建應用的方式轉變:

  1. 代理工作流程現在切實可行。 交錯思考和改進的工具使用意味著 Claude 能以更少的錯誤處理複雜的多步驟任務。Terminal-Bench 和 OSWorld 的得分證實了這一點。

  2. 上下文不再是瓶頸。 標準定價下的 100 萬 token 和自動上下文壓縮,使你可以構建能夠對整個程式碼庫、文件集合或對話歷史進行推理的應用。

  3. 價值層級異常強大。 Sonnet 4.6 在大多數程式碼編寫和電腦使用基準測試中,效能在 Opus 的 1-2% 之內。對於許多生產工作負載,它是明智的預設選擇。

  4. 自適應思考簡化了整合。 你無需為每個任務調整思考預算,只需設定一個努力等級,讓模型處理其餘部分。這減少了提示詞工程的開銷,使效能更加一致。

結語

Claude Opus 4.6 和 Sonnet 4.6 在單一 Claude 世代中帶來了最大的能力躍升。100 萬上下文視窗、自適應思考和交錯推理不僅僅是規格表上的改進——它們從根本上改變了你可以構建的應用。

Opus 4.6 在各方面樹立了新的基準。Sonnet 4.6 以 60% 的價格達到了驚人的接近水準。而 Haiku 4.5 仍可用於輕量任務,完整的 Claude 系列涵蓋了從預算到前沿的每個使用場景。

這些模型現已通過 Claude APIclaude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在內的合作夥伴平台提供。