Claude Opus 4.6 與 Sonnet 4.6：你需要知道的一切

Anthropic 再次提高了標準。隨著 Claude Opus 4.6（2026年2月5日）和 Claude Sonnet 4.6（2026年2月17日）的發布，Claude 模型系列在程式碼編寫、代理工作流程、長上下文推理和電腦使用方面帶來了重大提升——同時保持與上一代相同的定價。

以下是 4.6 世代成為重大飛躍的原因。

Claude Opus 4.6：迄今最強大的 Claude

Opus 4.6 是 Anthropic 的旗艦模型，專為程式碼編寫、研究和複雜推理中最具挑戰性的任務而設計。

標準定價下的 100 萬 Token 上下文視窗

首次推出的 Opus 級別模型配備了 100 萬 token 上下文視窗——且不收取長上下文附加費用。這意味著你可以將整個程式碼庫、冗長的法律文件或大型資料集輸入單一提示詞，無需擔心額外費用。

128K 輸出 Token

Opus 4.6 將最大輸出從 64K 提升至 128K token，使其在單次回應中生成長篇內容、詳細程式碼或全面分析時更加實用。

自適應思考

手動調整延伸思考預算的時代已經過去。Opus 4.6 引入了自適應思考，Claude 能夠動態決定何時以及如何深度推理。你可以設定四個努力等級之一——低、中、高（預設）或最高——讓模型相應地分配其推理預算。

交錯思考

在代理工作流程中，Claude 現在可以在工具呼叫之間進行思考。模型不再預先規劃所有內容再執行，而是在每個步驟進行推理，根據中間結果調整方式。這使多步驟任務的可靠性大幅提升。

上下文壓縮

當對話接近上下文限制時，Opus 4.6 會自動摘要並替換舊的上下文，而不是直接截斷。這實現了更長時間的持續互動——對於跨越多個回合的程式碼編寫、除錯和研究工作流程尤為寶貴。

Claude Sonnet 4.6：縮小差距

Sonnet 4.6 現在是 claude.ai 免費版和專業版用戶的預設模型。這次發布最令人矚目的是 Sonnet 與 Opus 級別效能的差距有多小——兩者之間的差距是有史以來最小的。

Sonnet 4.6 共享相同的核心改進：100 萬上下文視窗、自適應思考、延伸思考和交錯思考。所有這些都以顯著更低的價格提供。

基準測試亮點

數字說明了一切：

基準測試	Opus 4.6	Sonnet 4.6
SWE-bench Verified（真實 GitHub 問題）	~80.8%	79.6%
OSWorld-Verified（電腦使用）	72.7%	72.5%
Terminal-Bench 2.0（代理程式碼編寫）	總體第一	59.1%
Humanity’s Last Exam	總體第一	—
ARC-AGI-2	—	58.3%（提升 4.3 倍）
BigLaw Bench（法律推理）	90.2%	—
MRCR v2 8-needle @ 1M（長上下文）	76%	—

幾個值得關注的亮點：

SWE-bench Verified：Sonnet 4.6 得分 79.6%，幾乎與 Opus 的 80.8% 持平。對於大多數程式碼編寫任務，差異可以忽略不計。
OSWorld：兩個模型在自主電腦使用上的得分均超過 72%——與上一代相比有巨大飛躍，遠超競爭模型。
ARC-AGI-2：Sonnet 4.6 從 13.6% 跳升至 58.3%，提升 4.3 倍——是 Claude 歷史上單代最大的進步。
長上下文檢索：Opus 4.6 在 100 萬上下文的 8 針檢索任務中得分 76%，而 Sonnet 4.5 僅有 18.5%。在長文件深處尋找資訊的能力提升了 4 倍。

定價

兩個模型保持與其 4.5 前代相同的定價：

模型	輸入（每 100 萬 token）	輸出（每 100 萬 token）
Opus 4.6	$5	$25
Sonnet 4.6	$3	$15
Haiku 4.5	$1	$5

Opus 和 Sonnet 的 100 萬上下文視窗均以標準定價提供——沒有進階方案或附加費用。

何時選用哪個模型

選擇 Opus 4.6 的情況：

複雜多步驟推理需要最高準確度
需要在大量文件中精確檢索的長上下文任務
可靠性至關重要的代理程式碼編寫工作流程
要求最高準確度的法律、科學或財務分析

選擇 Sonnet 4.6 的情況：

以較低成本進行強大的程式碼編寫和推理
電腦使用和代理任務（效能與 Opus 幾乎相同）
在能力和速度之間取得良好平衡
高容量工作負載中 40% 的成本節省積少成多

選擇 Haiku 4.5 的情況：

分類、摘要或簡單問答等快速輕量任務
大規模應用中對預算敏感的場景

這對開發者意味著什麼

4.6 世代代表了開發者使用 Claude 構建應用的方式轉變：

代理工作流程現在切實可行。 交錯思考和改進的工具使用意味著 Claude 能以更少的錯誤處理複雜的多步驟任務。Terminal-Bench 和 OSWorld 的得分證實了這一點。
上下文不再是瓶頸。 標準定價下的 100 萬 token 和自動上下文壓縮，使你可以構建能夠對整個程式碼庫、文件集合或對話歷史進行推理的應用。
價值層級異常強大。 Sonnet 4.6 在大多數程式碼編寫和電腦使用基準測試中，效能在 Opus 的 1-2% 之內。對於許多生產工作負載，它是明智的預設選擇。
自適應思考簡化了整合。 你無需為每個任務調整思考預算，只需設定一個努力等級，讓模型處理其餘部分。這減少了提示詞工程的開銷，使效能更加一致。

結語

Claude Opus 4.6 和 Sonnet 4.6 在單一 Claude 世代中帶來了最大的能力躍升。100 萬上下文視窗、自適應思考和交錯推理不僅僅是規格表上的改進——它們從根本上改變了你可以構建的應用。

Opus 4.6 在各方面樹立了新的基準。Sonnet 4.6 以 60% 的價格達到了驚人的接近水準。而 Haiku 4.5 仍可用於輕量任務，完整的 Claude 系列涵蓋了從預算到前沿的每個使用場景。

這些模型現已通過 Claude API、claude.ai 以及包括 Amazon Bedrock 和 Google Cloud Vertex AI 在內的合作夥伴平台提供。

Claude Opus 4.6：迄今最強大的 Claude

標準定價下的 100 萬 Token 上下文視窗

128K 輸出 Token

自適應思考

交錯思考

上下文壓縮

Claude Sonnet 4.6：縮小差距

基準測試亮點

定價

何時選用哪個模型

這對開發者意味著什麼

結語

相關文章

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智譜AI最新模型的實力評測

Phota Edit現已登陸WaveSpeedAI

Phota Enhance 現已登陸WaveSpeedAI

Phota Text-to-Image現已登陸WaveSpeedAI

Claude Mythos（Opus 5）洩露：目前我們所知道的一切

Suno vs MiniMax Music vs Google Lyria 3：AI音樂生成全面比較