Claude Opus 4.6 與 Sonnet 4.6:你需要知道的一切
深入解析 Anthropic 的 Claude Opus 4.6 與 Sonnet 4.6——迄今最強大的 Claude 模型,具備 100 萬 token 上下文視窗、自適應思考能力,以及頂尖的基準測試成績。
Anthropic 再次提高了標準。隨著 Claude Opus 4.6(2026年2月5日)和 Claude Sonnet 4.6(2026年2月17日)的發布,Claude 模型系列在程式碼編寫、代理工作流程、長上下文推理和電腦使用方面帶來了重大提升——同時保持與上一代相同的定價。
以下是 4.6 世代成為重大飛躍的原因。
Claude Opus 4.6:迄今最強大的 Claude
Opus 4.6 是 Anthropic 的旗艦模型,專為程式碼編寫、研究和複雜推理中最具挑戰性的任務而設計。
標準定價下的 100 萬 Token 上下文視窗
首次推出的 Opus 級別模型配備了 100 萬 token 上下文視窗——且不收取長上下文附加費用。這意味著你可以將整個程式碼庫、冗長的法律文件或大型資料集輸入單一提示詞,無需擔心額外費用。
128K 輸出 Token
Opus 4.6 將最大輸出從 64K 提升至 128K token,使其在單次回應中生成長篇內容、詳細程式碼或全面分析時更加實用。
自適應思考
手動調整延伸思考預算的時代已經過去。Opus 4.6 引入了自適應思考,Claude 能夠動態決定何時以及如何深度推理。你可以設定四個努力等級之一——低、中、高(預設)或最高——讓模型相應地分配其推理預算。
交錯思考
在代理工作流程中,Claude 現在可以在工具呼叫之間進行思考。模型不再預先規劃所有內容再執行,而是在每個步驟進行推理,根據中間結果調整方式。這使多步驟任務的可靠性大幅提升。
上下文壓縮
當對話接近上下文限制時,Opus 4.6 會自動摘要並替換舊的上下文,而不是直接截斷。這實現了更長時間的持續互動——對於跨越多個回合的程式碼編寫、除錯和研究工作流程尤為寶貴。
Claude Sonnet 4.6:縮小差距
Sonnet 4.6 現在是 claude.ai 免費版和專業版用戶的預設模型。這次發布最令人矚目的是 Sonnet 與 Opus 級別效能的差距有多小——兩者之間的差距是有史以來最小的。
Sonnet 4.6 共享相同的核心改進:100 萬上下文視窗、自適應思考、延伸思考和交錯思考。所有這些都以顯著更低的價格提供。
基準測試亮點
數字說明了一切:
| 基準測試 | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| SWE-bench Verified(真實 GitHub 問題) | ~80.8% | 79.6% |
| OSWorld-Verified(電腦使用) | 72.7% | 72.5% |
| Terminal-Bench 2.0(代理程式碼編寫) | 總體第一 | 59.1% |
| Humanity’s Last Exam | 總體第一 | — |
| ARC-AGI-2 | — | 58.3%(提升 4.3 倍) |
| BigLaw Bench(法律推理) | 90.2% | — |
| MRCR v2 8-needle @ 1M(長上下文) | 76% | — |
幾個值得關注的亮點:
- SWE-bench Verified:Sonnet 4.6 得分 79.6%,幾乎與 Opus 的 80.8% 持平。對於大多數程式碼編寫任務,差異可以忽略不計。
- OSWorld:兩個模型在自主電腦使用上的得分均超過 72%——與上一代相比有巨大飛躍,遠超競爭模型。
- ARC-AGI-2:Sonnet 4.6 從 13.6% 跳升至 58.3%,提升 4.3 倍——是 Claude 歷史上單代最大的進步。
- 長上下文檢索:Opus 4.6 在 100 萬上下文的 8 針檢索任務中得分 76%,而 Sonnet 4.5 僅有 18.5%。在長文件深處尋找資訊的能力提升了 4 倍。
定價
兩個模型保持與其 4.5 前代相同的定價:
| 模型 | 輸入(每 100 萬 token) | 輸出(每 100 萬 token) |
|---|---|---|
| Opus 4.6 | $5 | $25 |
| Sonnet 4.6 | $3 | $15 |
| Haiku 4.5 | $1 | $5 |
Opus 和 Sonnet 的 100 萬上下文視窗均以標準定價提供——沒有進階方案或附加費用。
何時選用哪個模型
選擇 Opus 4.6 的情況:
- 複雜多步驟推理需要最高準確度
- 需要在大量文件中精確檢索的長上下文任務
- 可靠性至關重要的代理程式碼編寫工作流程
- 要求最高準確度的法律、科學或財務分析
選擇 Sonnet 4.6 的情況:
- 以較低成本進行強大的程式碼編寫和推理
- 電腦使用和代理任務(效能與 Opus 幾乎相同)
- 在能力和速度之間取得良好平衡
- 高容量工作負載中 40% 的成本節省積少成多
選擇 Haiku 4.5 的情況:
- 分類、摘要或簡單問答等快速輕量任務
- 大規模應用中對預算敏感的場景
這對開發者意味著什麼
4.6 世代代表了開發者使用 Claude 構建應用的方式轉變:
-
代理工作流程現在切實可行。 交錯思考和改進的工具使用意味著 Claude 能以更少的錯誤處理複雜的多步驟任務。Terminal-Bench 和 OSWorld 的得分證實了這一點。
-
上下文不再是瓶頸。 標準定價下的 100 萬 token 和自動上下文壓縮,使你可以構建能夠對整個程式碼庫、文件集合或對話歷史進行推理的應用。
-
價值層級異常強大。 Sonnet 4.6 在大多數程式碼編寫和電腦使用基準測試中,效能在 Opus 的 1-2% 之內。對於許多生產工作負載,它是明智的預設選擇。
-
自適應思考簡化了整合。 你無需為每個任務調整思考預算,只需設定一個努力等級,讓模型處理其餘部分。這減少了提示詞工程的開銷,使效能更加一致。
結語
Claude Opus 4.6 和 Sonnet 4.6 在單一 Claude 世代中帶來了最大的能力躍升。100 萬上下文視窗、自適應思考和交錯推理不僅僅是規格表上的改進——它們從根本上改變了你可以構建的應用。
Opus 4.6 在各方面樹立了新的基準。Sonnet 4.6 以 60% 的價格達到了驚人的接近水準。而 Haiku 4.5 仍可用於輕量任務,完整的 Claude 系列涵蓋了從預算到前沿的每個使用場景。
這些模型現已通過 Claude API、claude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在內的合作夥伴平台提供。



