Claude Opus 4.8：發布日期、定價、基準測試與開發者注意事項

大家好，我是 Dora。

Anthropic 在 2026 年 5 月 28 日發布了 Opus 4.8——距離 4.7 不到兩個月。Opus 4.8 的發布日期本身不如實際改變的內容重要，但我想趁記憶猶新時把這些記錄下來，因為公告中的框架與開發者真正需要的框架並不完全一致。標題中的數字是真實的。但他們沒有告訴你的是哪些工作負載會受益、哪些不會，以及在生產環境切換前你能自行驗證多少。

這篇文章將介紹發布狀態、定價、基準測試、對開發者的改變，以及仍在形成中的社群反饋。我引用自官方公告和系統說明卡，其他來源一律作為次要參考。

Claude Opus 4.8 是什麼

官方發布狀態與 API 模型 ID

Opus 4.8 的發布日期為 2026 年 5 月 28 日。立即可在 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 GitHub Copilot 上使用。API 模型 ID 為 Claude-Opus-4-8，這就是你要填入設定的字串。

根據 Anthropic 的公告，anthropic Opus 4.8 被描述為「相較前代有著適度但實質的改進」。這種措辭對於發布文章來說異常克制，值得字面理解——Anthropic 本身並未將其定位為跨代式的躍升。

相較 Opus 4.7 的變化

對開發者真正重要的三項變化：

第一，誠實性。Anthropic 表示 Opus 4.8 讓自身程式碼中的缺陷在未被標記的情況下通過的可能性，比 4.7 低了大約四倍。早期測試者回報它更容易主動表達不確定性。這種改變不會在單次示範中顯現，但在長時間運行的代理任務中會累積效果。

第二，代理可靠性。Anthropic 將該模型定位為在代理任務上「更可靠、判斷更敏銳」。Cognition（Devin）特別指出 4.7 中的注釋冗長和工具呼叫問題已得到修復。

第三，更快且更便宜的快速模式。相同的模型，可配置為更高吞吐量與更低成本。詳情請見定價部分。

同時發布的還有一個新功能層：Claude Code 中的動態工作流程（研究預覽版，適用於 Enterprise/Team/Max 方案）、Claude.ai 和 Cowork 中的努力程度控制，以及 Messages API 現在接受 messages 陣列內的 system 條目。Messages API 的變更比表面上看起來更重要——它讓你可以在任務進行中更新 Claude 的指令，而不會破壞提示快取。對於長時間的代理運行，這是一個低調但實質的效率提升。

Opus 4.8 定價與 API 可用性

一般使用與快速模式

Opus 4.8 定價，一般使用：每百萬輸入 token $5，每百萬輸出 token $25。與 Opus 4.7 相同。無需重新談判，無需重構。

快速模式：每百萬輸入 $10，每百萬輸出 $50。Anthropic 表示快速模式比前代模型的快速模式快約 2.5 倍，且便宜三倍。這裡的數學是跨版本比較快速模式對快速模式，而非 4.8 內部快速模式對一般模式的比較。請仔細閱讀。

關於努力程度等級的說明，因為這是大多數開發者將花時間調整的地方：Opus 4.8 預設為「高」努力程度。在編碼任務上，這消耗的 token 數量與 Opus 4.7 的預設值相近——但結果更好。「額外」（Claude Code 中的 xhigh）和「最大」可用於更難的工作和更長的非同步運行。Anthropic 提高了 Claude Code 的速率限制以適應更高的努力程度，這種運營細節比基準測試分數更重要。

團隊應在 Console 和文件中驗證的內容

我會將以下視為不會漂移的唯一權威參考點：

官方 Claude Opus 模型頁面，了解目前的 Opus 陣容、模型 ID 和功能範圍。
Claude Code 中動態工作流程的配套文章，了解隨模型一起發布的新平行子代理功能。
Claude API 模型概覽，了解目前的模型 ID、區域可用性和速率限制。
Claude Opus 4.8 系統說明卡，了解評估方法和對齊數據。

在承諾之前，請務必在 Console 中確認定價和限制——模型陣容會更新，快速模式的可用性可能因地區或平台而異，API 上的情況在 Bedrock 或 Vertex 的發布週可能略有不同。

Opus 4.8 基準測試及其含義

編碼、代理技能、推理和知識工作

Anthropic 發布的 Opus 4.8 基準測試數字，在有提供的情況下以 4.7 作為比較：

代理編碼（SWE-Bench Pro）：64.3% → 69.2%
使用工具的多學科推理：54.7% → 57.9%
不對齊行為分數（越低越好）：2.5 → 1.9——使 Opus 4.8 在對齊方面實際上與 Mythos Preview 持平
OSWorld-Verified（電腦使用）：Browserbase 回報 84%，被描述為相較 4.7 和 GPT-5.5 的「顯著躍升」

在 Terminal-Bench 2.1 上，Anthropic 回報 GPT-5.5 在 Codex CLI 測試框架下仍以 83.4% 領先——Anthropic 在公告的注釋中直接說明了這一點。值得注意，因為大多數發布文章會跳過競爭對手的優勢。

合作夥伴回報的數字更為突出。Databricks 表示其 Genie 代理在 PDF 和圖表上的運行，相較 4.7 時的 token 成本降低了 61%。Browserbase 在 Online-Mind2Web 上回報了 84%。Devin 製造商 Cognition 稱其對工程師是直接的能力提升。這些並非獨立數據——它們是推薦背書。但所引用的改進類型（多模態輸入的 token 效率、工具呼叫的整潔度、代理端到端完成率）在操作層面的具體性，是純粹行銷宣傳通常不具備的。

為什麼官方基準測試仍需工作負載測試

基準測試告訴你模型在固定評估上能做什麼。它不告訴你它在你的特定提示、你的特定工具框架、你的特定檢索設置上會有什麼表現。在切換生產流量之前，需要實際測試兩件事：

一——誠實性的改進對你的工作流程有幫助還是阻礙？更多的不確定性標記對代碼審查、代理監督和分析非常好。對於你想要確定答案的低風險生成任務，它可能是摩擦。

二——預設的高努力程度是否符合你的延遲預算？Anthropic 表示在新預設下，編碼任務的 token 消耗與 4.7 相似，但「相似」不等於「相同」，你的工作負載可能會有所不同。運行一批代表性樣本，端到端測量成本和延遲，然後再做決定。

我寧願花一個下午進行工作負載測試，也不願在切換後的第三週才發現回退問題。

Opus 4.8 與 Opus 4.7 的開發者比較

更好的判斷力、誠實性和代理任務可靠性

我預期開發者會感受到差異的地方：

長時間運行的代理任務。 誠實性提升加上工具呼叫的改善，在多個步驟中累積效果。Anthropic 的動態工作流程功能正是建立在此基礎上——代碼庫規模的遷移、數百個平行子代理，在回報前進行驗證。這類工作負載只有在底層模型不捏造進度的情況下才有意義。
多模態密集型管道。 Databricks 在 PDF 和圖表上節省 61% token 成本的說法並非小事。如果你的工作流程將文件輸入模型，這值得在你自己的數據上測量。
電腦使用和瀏覽器代理。 Online-Mind2Web 上的 84% 在這個歷來脆弱的類別中是真正的進步。

我預期不會有顯著變化的地方：簡單聊天、單次提示、短上下文任務。4.7 到 4.8 的差距在複雜度的高端最為明顯，而非在底層。

何時切換、測試或等待

一個簡短的決策框架，因為這是大多數團隊會問的問題：

立即切換：如果你正在運行代理工作負載、電腦使用代理，或任何受到 Opus 4.7 工具呼叫或注釋冗長問題困擾的管道。定價相同。回退風險低。
先測試：如果你的工作流程依賴特定行為（回應長度、語氣、特定代理模式）。誠實性的變化可能會以影響下游提示的方式改變輸出。
等待：如果你已針對穩定工作流程對 4.7 進行了深度調整，且不運行代理任務。沒有緊迫性，而且 Anthropic 本身也稱這是「適度」的改進。

實際操作：在生產流量的樣本上對 4.8 進行影子測試幾天。在你真正關心的指標上與 4.7 進行比較——成本、延遲、完成率、錯誤率。然後再決定。

Reddit 和社群討論：需謹慎對待的內容

Opus 4.8 的 Reddit 討論串將在發布後幾天內出現。它們總是這樣。它們的用處在於：發現令人驚訝的失敗模式、特定工作流程的回退回報、失效的提示模式。它們不適合用於：平均性能評估、統計聲明，或第一週的「是否值得切換」定論。

發布後 72 小時內的社群信號偏向於聲音最大的——遇到問題的人先發帖，工作流程改善的人默默不發帖。Anthropic 公告中的早期企業合作夥伴引用也是推薦背書。兩者都是數據點，而非結論。

我會特別關注社群討論中的：之前有效的提示的回退回報、有工作負載背景的真實成本比較，以及關於新努力程度控制行為的反饋。跳過那些意見性內容。如果你的決定不是時間緊迫的，等兩到三週後再看更穩定的圖景。

常見問題

Claude Opus 4.8 是什麼？

Claude Opus 4.8 是 anthropic Opus 4.8 的旗艦模型升級版，於 2026 年 5 月 28 日發布。Anthropic 將其定位為相較 Opus 4.7「適度但實質」的改進，在代理編碼、推理、知識工作和誠實性方面有所提升。API 模型 ID 為 Claude-Opus-4-8。

開發者如何使用 Claude Opus 4.8？

透過 Claude API 使用 Claude-Opus-4-8 模型 ID，以及透過 Amazon Bedrock、Google Cloud Vertex AI，以及 GitHub Copilot 等平台，目前均已正式可用。努力程度等級——低、中、高（預設）、額外/xhigh、最大——均可配置。如需完整的整合詳情，請參閱 Anthropic 的官方文件。

Opus 4.8 的定價與 Opus 4.7 不同嗎？

一般定價不變：每百萬輸入 token $5，每百萬輸出 token $25。快速模式定價有所不同，在 Anthropic 的公告中有單獨說明。在承諾之前，請務必在 Console 或官方定價頁面確認當前定價——如需最新數字，請參閱官方最新文件。

團隊應該從 Opus 4.7 切換到 Opus 4.8 嗎？

取決於工作負載。如果你運行代理管道、電腦使用代理，或受到 4.7 工具呼叫或冗長問題困擾的工作流程，在同等定價下切換是合理的。如果你已針對特定行為對 4.7 進行調整，請先進行影子測試。沒有通用答案。

結論

Claude 4.8 正如其所宣稱的那樣——是一次真實但有節制的升級，在代理、長時間運行和多模態工作負載上效果最為顯著。一般使用與 4.7 定價相同，意味著切換成本是操作性的，而非財務性的。誠實性的改進是我在 Claude 4.8 中最值得關注的變化，因為它影響模型在失敗案例中的行為，而不僅僅是成功案例。

如果你是開發者，在決定之前先在你自己的工作負載上進行測試。不要相信發布時的推薦背書，不要相信早期的 Reddit 討論串，也不要相信這篇文章。自己跑一下。

就這些。等我用了一週後會有更多分享。

往期文章：