Gemini 3.5 Flash 正式發布——Flash 級模型在 Agent 基準測試上超越 Pro 級

Google 於 2026 年 5 月 19 日將 Gemini 3.5 Flash 正式推出正式版，與在 I/O 發表的同一天——涵蓋 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式，以及搜尋中的 AI 模式。模型 ID 為 gemini-3.5-flash（無預覽後綴），2026 年 5 月快照版本為 3.5-flash-05-2026，定價為每百萬 token 輸入 $1.50 / 輸出 $9.00，快取輸入則為每百萬 token $0.15。

最引人注目的數字在基準測試方面：一個 Flash 等級的模型現在在大多數代理套件上勝過 Pro 等級的前沿模型。Claude Opus 4.7 和 GPT-5.5——兩者都是 Pro 等級，費用都明顯更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上落後於 Flash。編碼方面則較為複雜，且有一個明確的類別 Flash 仍然居於下風。以下是完整的評測結果、誠實的取捨分析，以及建議的部署方向。

已推出內容，一覽無遺

詳細資訊	數值
模型 ID	`gemini-3.5-flash`
快照版本	`3.5-flash-05-2026`
輸入定價	$1.50/百萬 token
輸出定價	$9.00/百萬 token
快取輸入	$0.15/百萬 token
輸入模態	文字 + 圖片 + 音訊 + 影片
輸出模態	文字
上下文視窗	1,048,576 輸入 / 65,536 輸出
思考模式	動態思考預設啟用
工具使用	函式呼叫、結構化輸出、搜尋即工具、程式碼執行
可用性	Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式、搜尋中的 AI 模式
速度聲明	輸出 token/秒約為前沿同級模型的 4 倍

「思考模式預設啟用」這個細節比規格表看起來更為重要。這並非你每次請求都需要設定的 thinking_budget 參數——Flash 內建了動態推理機制。模型會根據提示自行決定思考的深度。對於將延遲預算納入考量的生產程式碼而言，這與 Sonnet 4.6 的延伸思考切換或 GPT-5.5 的 reasoning 參數是截然不同的部署形態。

代理基準測試：Flash 對比 Pro 等級

跨廠商資料正是 Flash 定位變得清晰的地方。資料來源為 Digital Applied 的代理編碼分析和 LLM Stats 的發布分析中的發布比較：

基準測試	Gemini 3.5 Flash	Claude Opus 4.7	GPT-5.5	勝者
MCP Atlas	83.6%	79.1%	75.3%	Flash (+4.5 / +8.3)
Toolathlon	56.5%	—	—	Flash
Finance Agent v2	57.9%	—	—	Flash
CharXiv Reasoning	84.2%	—	—	Flash
MMMU-Pro	83.6%	—	—	Flash
SWE-Bench Pro	—	64.3%	—	Opus 4.7
Terminal-Bench 2.1	76.2%	—	78.2%	GPT-5.5 (+2.0)
OSWorld-Verified	—	—	78.7%	GPT-5.5
Blueprint-Bench 2	—	—	36.2%	GPT-5.5
GDPval-AA	1656 Elo	—	1769 Elo	GPT-5.5 (+113)
ARC-AGI-2	72.1%	—	84.6%	GPT-5.5 (+12.5)

三點解讀：

在代理編排方面，Flash 現在是優先考慮的預設選擇。 MCP Atlas 衡量的是多步驟工具驅動的工作流程——這正是大多數企業代理架構實際部署的使用場景。在此基準測試中以 4.5 個百分點擊敗 Opus，且使用 Flash 定價，這是一個有實質意義的性價比轉變。Toolathlon 和 Finance Agent v2 進一步強化了這個模式：在任何工作屬於代理性質的場合（規劃、呼叫工具、整合結果、反覆迭代），Flash 都處於領先地位。

在終端機式編碼方面，GPT-5.5 仍以些微差距勝出。 Terminal-Bench 2.1 上 2 個百分點的差距並不決定性——但結合 GPT-5.5 在 GDPval-AA（113 Elo）和 OSWorld-Verified 上的優勢，結論是：如果你的工作流程是「給模型一個終端機和一個任務」，GPT-5.5 仍然是正確的選擇。Flash 縮小了差距，但並未超越。

在困難的抽象推理方面，Flash 有真實的弱點。 ARC-AGI-2 在此是最清晰的訊號——Flash 比 GPT-5.5 低了 12.5 個百分點。這與我們昨天注意到 Flash 在 Humanity’s Last Exam 和長上下文檢索方面相較前代 Gemini 3.1 Pro 出現退步的情況一致。Flash 架構顯然以推理深度換取了速度和成本優勢。六月即將推出的 Gemini 3.5 Pro 大概就是針對這個取捨的解答。

定價脈絡

模型	輸入（$/百萬）	輸出（$/百萬）	輸出比率	備註
Gemini 3.5 Flash	$1.50	$9.00	6.0×	快取輸入 $0.15
Claude Sonnet 4.6	$3.00	$15.00	5.0×	100 萬上下文統一費率
Claude Opus 4.7	$5.00	$25.00	5.0×	Pro 等級推理
GPT-5.5	$1.25	$10.00	8.0×	輸入最便宜
Gemini 3.1 Pro（前代）	$2.50	$15.00	6.0×	比 Flash 貴 40%

Flash 在兩個維度上均低於 Sonnet 4.6，同時在代理基準測試上超越 Opus 4.7。這是開發者需要消化的定價故事：代理編排的預設選擇，輸入成本剛剛便宜了 50%，輸出成本便宜了 40%，且相比同等級的前代預設選擇擁有明顯更好的基準測試表現。

$0.15/百萬 token 的快取輸入定價，是讓任何以 RAG 或記憶體為主的工作流程數學計算大幅傾斜的關鍵。如果你每次請求都需要輸入 50 萬 token 的快取上下文，Flash 的快取定價大約是 Sonnet 4.6 標準輸入費率的 10%。這不是幾個百分點的利潤差距，而是截然不同的成本等級。

Flash 在今日生產環境中的適用位置

基於基準測試資料，以下是具體的部署建議：

適合使用 Flash 的場景：

MCP / 工具編排代理。 這是 Flash 真正領先的領域，且價格優勢最大。
高流量 API 工作流程，在單位成本比尖峰智慧更重要的場合：資料轉換、分類、結構化擷取、批次處理。
多模態管道，接受圖片/音訊/影片輸入並輸出文字——Flash 原生支援所有四種輸入模態。
快取密集型工作流程（長上下文 RAG、對話記憶、文件搜尋）——$0.15/百萬 token 的快取輸入是前沿等級中最便宜的。

目前不適合使用 Flash 的場景：

困難的抽象推理——ARC-AGI-2 類型的問題。GPT-5.5 是正確選擇。
128K+ 的長上下文檢索——Flash 相較前代 Gemini 3.1 Pro 在此出現退步。等待六月的 3.5 Pro。
純終端機編碼代理——GPT-5.5 在 Terminal-Bench 上仍有 2 個百分點的優勢，這在多步驟編碼工作流程中會累積放大。
需要每次請求控制思考預算的工作負載——Flash 的思考模式是內建的，並未作為參數對外暴露。

今日改變了哪些昨日不成立的事

Flash 發布帶來了三項真實的轉變：

預設代理模型不再是 Pro 等級。「使用你能負擔得起的最佳模型」對代理工作流程而言不再是好建議。對於 MCP 編排任務，Flash 在競爭對手的 Pro 模型中勝出，且成本更低。
Gemini 文字家族在代理能力上追上來了。 發布前，主流觀點是「Gemini 在編碼/代理方面落後」。發布後，Flash 在大多數代理套件中領先，且在編碼方面具有競爭力。這個說法需要更新。
推理差距擴大了，而非縮小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是真實存在的。六月的 Pro 版本發布，現在是 Gemini 能否填補這個特定差距的關鍵事件。

部署路徑

今日最清晰的部署形態，取決於你所在的平台：

直接透過 Google 的生產 API：透過 Vertex AI 或 AI Studio 使用 gemini-3.5-flash。兩者提供相同的模型。
在 Antigravity 中（Google 的 IDE 式編碼平台）：對大多數工作流程而言，將預設模型從 gemini-3.1-pro 換為 gemini-3.5-flash 是正確的選擇。
在多廠商路由器中：將 gemini-3.5-flash 加入你的代理編排策略。對 MCP / 工具密集型路徑，優先路由至 Flash；對終端機編碼和 ARC 式推理，退而使用 GPT-5.5。
在 WaveSpeedAI 上：WaveSpeedAI LLM 端點透過單一 API 金鑰提供 OpenAI 相容的前沿文字模型存取。隨著 Gemini 3.5 Flash 整合完成，你將能夠在同一平台下對其與其他模型進行 A/B 測試。

六月值得關注的事項

未來四週內將有兩件事見分曉：

Gemini 3.5 Pro 發布。 這將解答 Flash 在推理和長上下文方面的退步是否得到修正。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro，且在 Terminal-Bench 上與 Flash 旗鼓相當，整個 Gemini 3.5 家族就是新的預設選擇。如果 Pro 只是以更高成本修補了退步問題，這個產品線將繼續呈現分歧狀態。
獨立代理基準測試的複現研究。 Google 的 MCP Atlas / Toolathlon / Finance Agent 數字是第一方資料。有趣的問題是，第三方代理基準套件（LangChain Bench、MetaGPT eval 等）是否能複現這個領先優勢。請在未來兩到三週內關注複現研究的結果。

在此之前：Flash 已正式推出，代理編排成本剛剛下降，本週大多數開發者面臨的問題是：要現在就將代理路徑從 Opus 4.7 遷移至 gemini-3.5-flash，還是等待 3.5 Pro？

資料來源：LLM Stats 關於 Gemini 3.5 Flash 的分析、Digital Applied 代理編碼比較、Seeking Alpha 關於代理基準測試領先地位的報導、DataCamp Gemini 3.5 Flash 評測、Vertex AI 發布說明。

已推出內容，一覽無遺

代理基準測試：Flash 對比 Pro 等級

定價脈絡

Flash 在今日生產環境中的適用位置

適合使用 Flash 的場景：

目前不適合使用 Flash 的場景：

今日改變了哪些昨日不成立的事

部署路徑

六月值得關注的事項

相關文章

Claude Fable 5 正式發布：SWE-Bench Pro 得分 80.3%、定價為 Opus 4.8 的 2 倍，6 月 22 日前免費使用

Gemini 3.5 Pro 下個月即將到來——Flash 版本已透露的訊息

Gemini Omni Flash 正式發布：10 秒多模態影片、SynthID 浮水印標記、音訊編輯功能暫緩推出

Google I/O 2026 的 Gemini 4.0：哪些已確認、哪些來自匿名消息、開發者真正需要關注什麼

Gemini Omni 演示影片剛剛洩露——Google 全新影片模型究竟能做什麼

Google神秘的「Omni」影片模型：Gemini UI洩露在I/O 2026前透露了什麼