← 部落格

Gemini 3.5 Flash 正式發布——Flash 級模型在 Agent 基準測試上超越 Pro 級

Gemini 3.5 Flash 於 I/O 2026 正式推出,預設開啟思考模式,每百萬 token 定價 $1.50/$9,在 MCP Atlas 及大多數 Agent 測試套件上超越 Claude Opus 4.7 與 GPT-5.5。本文分析 Flash 的領先之處、落後之處,以及如何部署。

By WaveSpeedAI 4 min read

Google 於 2026 年 5 月 19 日將 Gemini 3.5 Flash 正式推出正式版,與在 I/O 發表的同一天——涵蓋 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式,以及搜尋中的 AI 模式。模型 ID 為 gemini-3.5-flash(無預覽後綴),2026 年 5 月快照版本為 3.5-flash-05-2026,定價為每百萬 token 輸入 $1.50 / 輸出 $9.00,快取輸入則為每百萬 token $0.15。

最引人注目的數字在基準測試方面:一個 Flash 等級的模型現在在大多數代理套件上勝過 Pro 等級的前沿模型。Claude Opus 4.7 和 GPT-5.5——兩者都是 Pro 等級,費用都明顯更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上落後於 Flash。編碼方面則較為複雜,且有一個明確的類別 Flash 仍然居於下風。以下是完整的評測結果、誠實的取捨分析,以及建議的部署方向。

已推出內容,一覽無遺

詳細資訊數值
模型 IDgemini-3.5-flash
快照版本3.5-flash-05-2026
輸入定價$1.50/百萬 token
輸出定價$9.00/百萬 token
快取輸入$0.15/百萬 token
輸入模態文字 + 圖片 + 音訊 + 影片
輸出模態文字
上下文視窗1,048,576 輸入 / 65,536 輸出
思考模式動態思考預設啟用
工具使用函式呼叫、結構化輸出、搜尋即工具、程式碼執行
可用性Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 應用程式、搜尋中的 AI 模式
速度聲明輸出 token/秒約為前沿同級模型的 4 倍

「思考模式預設啟用」這個細節比規格表看起來更為重要。這並非你每次請求都需要設定的 thinking_budget 參數——Flash 內建了動態推理機制。模型會根據提示自行決定思考的深度。對於將延遲預算納入考量的生產程式碼而言,這與 Sonnet 4.6 的延伸思考切換或 GPT-5.5 的 reasoning 參數是截然不同的部署形態。

代理基準測試:Flash 對比 Pro 等級

跨廠商資料正是 Flash 定位變得清晰的地方。資料來源為 Digital Applied 的代理編碼分析LLM Stats 的發布分析中的發布比較:

基準測試Gemini 3.5 FlashClaude Opus 4.7GPT-5.5勝者
MCP Atlas83.6%79.1%75.3%Flash (+4.5 / +8.3)
Toolathlon56.5%Flash
Finance Agent v257.9%Flash
CharXiv Reasoning84.2%Flash
MMMU-Pro83.6%Flash
SWE-Bench Pro64.3%Opus 4.7
Terminal-Bench 2.176.2%78.2%GPT-5.5 (+2.0)
OSWorld-Verified78.7%GPT-5.5
Blueprint-Bench 236.2%GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272.1%84.6%GPT-5.5 (+12.5)

三點解讀:

在代理編排方面,Flash 現在是優先考慮的預設選擇。 MCP Atlas 衡量的是多步驟工具驅動的工作流程——這正是大多數企業代理架構實際部署的使用場景。在此基準測試中以 4.5 個百分點擊敗 Opus,且使用 Flash 定價,這是一個有實質意義的性價比轉變。Toolathlon 和 Finance Agent v2 進一步強化了這個模式:在任何工作屬於代理性質的場合(規劃、呼叫工具、整合結果、反覆迭代),Flash 都處於領先地位。

在終端機式編碼方面,GPT-5.5 仍以些微差距勝出。 Terminal-Bench 2.1 上 2 個百分點的差距並不決定性——但結合 GPT-5.5 在 GDPval-AA(113 Elo)和 OSWorld-Verified 上的優勢,結論是:如果你的工作流程是「給模型一個終端機和一個任務」,GPT-5.5 仍然是正確的選擇。Flash 縮小了差距,但並未超越。

在困難的抽象推理方面,Flash 有真實的弱點。 ARC-AGI-2 在此是最清晰的訊號——Flash 比 GPT-5.5 低了 12.5 個百分點。這與我們昨天注意到 Flash 在 Humanity’s Last Exam 和長上下文檢索方面相較前代 Gemini 3.1 Pro 出現退步的情況一致。Flash 架構顯然以推理深度換取了速度和成本優勢。六月即將推出的 Gemini 3.5 Pro 大概就是針對這個取捨的解答。

定價脈絡

模型輸入($/百萬)輸出($/百萬)輸出比率備註
Gemini 3.5 Flash$1.50$9.006.0×快取輸入 $0.15
Claude Sonnet 4.6$3.00$15.005.0×100 萬上下文統一費率
Claude Opus 4.7$5.00$25.005.0×Pro 等級推理
GPT-5.5$1.25$10.008.0×輸入最便宜
Gemini 3.1 Pro(前代)$2.50$15.006.0×比 Flash 貴 40%

Flash 在兩個維度上均低於 Sonnet 4.6,同時在代理基準測試上超越 Opus 4.7。這是開發者需要消化的定價故事:代理編排的預設選擇,輸入成本剛剛便宜了 50%,輸出成本便宜了 40%,且相比同等級的前代預設選擇擁有明顯更好的基準測試表現。

$0.15/百萬 token 的快取輸入定價,是讓任何以 RAG 或記憶體為主的工作流程數學計算大幅傾斜的關鍵。如果你每次請求都需要輸入 50 萬 token 的快取上下文,Flash 的快取定價大約是 Sonnet 4.6 標準輸入費率的 10%。這不是幾個百分點的利潤差距,而是截然不同的成本等級。

Flash 在今日生產環境中的適用位置

基於基準測試資料,以下是具體的部署建議:

適合使用 Flash 的場景:

  • MCP / 工具編排代理。 這是 Flash 真正領先的領域,且價格優勢最大。
  • 高流量 API 工作流程,在單位成本比尖峰智慧更重要的場合:資料轉換、分類、結構化擷取、批次處理。
  • 多模態管道,接受圖片/音訊/影片輸入並輸出文字——Flash 原生支援所有四種輸入模態。
  • 快取密集型工作流程(長上下文 RAG、對話記憶、文件搜尋)——$0.15/百萬 token 的快取輸入是前沿等級中最便宜的。

目前不適合使用 Flash 的場景:

  • 困難的抽象推理——ARC-AGI-2 類型的問題。GPT-5.5 是正確選擇。
  • 128K+ 的長上下文檢索——Flash 相較前代 Gemini 3.1 Pro 在此出現退步。等待六月的 3.5 Pro。
  • 純終端機編碼代理——GPT-5.5 在 Terminal-Bench 上仍有 2 個百分點的優勢,這在多步驟編碼工作流程中會累積放大。
  • 需要每次請求控制思考預算的工作負載——Flash 的思考模式是內建的,並未作為參數對外暴露。

今日改變了哪些昨日不成立的事

Flash 發布帶來了三項真實的轉變:

  1. 預設代理模型不再是 Pro 等級。「使用你能負擔得起的最佳模型」對代理工作流程而言不再是好建議。對於 MCP 編排任務,Flash 在競爭對手的 Pro 模型中勝出,且成本更低
  2. Gemini 文字家族在代理能力上追上來了。 發布前,主流觀點是「Gemini 在編碼/代理方面落後」。發布後,Flash 在大多數代理套件中領先,且在編碼方面具有競爭力。這個說法需要更新。
  3. 推理差距擴大了,而非縮小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是真實存在的。六月的 Pro 版本發布,現在是 Gemini 能否填補這個特定差距的關鍵事件。

部署路徑

今日最清晰的部署形態,取決於你所在的平台:

  • 直接透過 Google 的生產 API:透過 Vertex AI 或 AI Studio 使用 gemini-3.5-flash。兩者提供相同的模型。
  • 在 Antigravity 中(Google 的 IDE 式編碼平台):對大多數工作流程而言,將預設模型從 gemini-3.1-pro 換為 gemini-3.5-flash 是正確的選擇。
  • 在多廠商路由器中:將 gemini-3.5-flash 加入你的代理編排策略。對 MCP / 工具密集型路徑,優先路由至 Flash;對終端機編碼和 ARC 式推理,退而使用 GPT-5.5。
  • 在 WaveSpeedAI 上WaveSpeedAI LLM 端點透過單一 API 金鑰提供 OpenAI 相容的前沿文字模型存取。隨著 Gemini 3.5 Flash 整合完成,你將能夠在同一平台下對其與其他模型進行 A/B 測試。

六月值得關注的事項

未來四週內將有兩件事見分曉:

  1. Gemini 3.5 Pro 發布。 這將解答 Flash 在推理和長上下文方面的退步是否得到修正。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,在 Terminal-Bench 上與 Flash 旗鼓相當,整個 Gemini 3.5 家族就是新的預設選擇。如果 Pro 只是以更高成本修補了退步問題,這個產品線將繼續呈現分歧狀態。
  2. 獨立代理基準測試的複現研究。 Google 的 MCP Atlas / Toolathlon / Finance Agent 數字是第一方資料。有趣的問題是,第三方代理基準套件(LangChain Bench、MetaGPT eval 等)是否能複現這個領先優勢。請在未來兩到三週內關注複現研究的結果。

在此之前:Flash 已正式推出,代理編排成本剛剛下降,本週大多數開發者面臨的問題是:要現在就將代理路徑從 Opus 4.7 遷移至 gemini-3.5-flash,還是等待 3.5 Pro?

資料來源:LLM Stats 關於 Gemini 3.5 Flash 的分析Digital Applied 代理編碼比較Seeking Alpha 關於代理基準測試領先地位的報導DataCamp Gemini 3.5 Flash 評測Vertex AI 發布說明