Gemini 3.5 Pro 下個月即將到來——Flash 版本已透露的訊息

I/O 2026 主題演講的隔天，主題演講前的問題——Google 究竟會發布「Gemini 3.5」還是「Gemini 4.0」——終於有了答案。答案是 3.5。但更值得關注的是 Google 實際發布了什麼，又保留了什麼：Gemini 3.5 Flash 於 5 月 19 日正式上線普通版；Gemini 3.5 Pro 則「下個月才會推出」。 Sundar Pichai 在台上的原話是：「再給我們一個月的時間。」

據報導，現場觀眾發出了嘆息聲。這個反應情有可原，但這個差距其實比表面上看起來更耐人尋味。Flash 在對開發者最重要的基準測試上已超越了 Gemini 3.1 Pro——但在一組特定的推理和長上下文基準測試上卻出現了退步。Pro 晚一個月上市，幾乎可以確定是 Google 針對這些退步所給出的答覆。以下是 Flash 的發布告訴我們的關於 Pro 究竟會是什麼樣子。

已確認：Google 關於 3.5 Pro 的說法

Google 在台上關於 Pro 的陳述非常有限。確認的完整資訊如下：

細節	來源	狀態
「下個月」（2026 年 6 月）發布	Pichai 主題演講	已確認
目前處於內部測試階段	Pichai 主題演講	已確認
將與 Flash 共享程式碼/代理聚焦方向	I/O 訊息	已確認
具體基準測試數據	—	未公開
定價	—	未公開
上下文窗口	—	未公開
模型 ID	—	未公開

就這些。沒有基準測試、沒有定價、沒有模型說明。Pro 的發布只有一個意向聲明和一個時程表。

Flash 數據對 Pro 的啟示

這才是真正有用的地方。Gemini 3.5 Flash 在同一天發布並附帶了完整的基準測試數據，與上一代 Gemini 3.1 Pro 的比較清楚揭示了新一代在哪些方面更強，在哪些方面更弱。

Flash 勝過 Gemini 3.1 Pro 的地方

基準測試	3.5 Flash	3.1 Pro	差異
Terminal-Bench 2.1	76.2%	70.3%	+5.9
MCP Atlas	83.6%	78.2%	+5.4
Finance Agent v2	57.9%	43.0%	+14.9
GDPval-AA	1656 Elo	1314 Elo	+342

這些全都是程式碼和代理基準測試——也就是 Claude 一直是開發者首選的那些類別。Flash 現在在這些測試上與 Claude 的差距，已比上一代 Pro 更小。 這是產品上的重大變化，而非微小調整。

Flash 相較 Gemini 3.1 Pro 退步的地方

基準測試	3.5 Flash	3.1 Pro	差異
Humanity’s Last Exam	40.2%	44.4%	−4.2
ARC-AGI-2	72.1%	77.1%	−5.0
長上下文（128K）	77.3%	84.9%	−7.6

這三項恰好是你最期待 Pro 層級能夠脫穎而出的基準測試。難度推理、抽象模式匹配、長上下文檢索。前兩項考驗深度；第三項考驗大規模的召回能力。Flash 在每項上退步 4-8 個百分點，說明 Flash 架構為了達到速度和成本指標而做出了刻意的取捨。

6 月的 3.5 Pro 發布幾乎可以確定正是針對這份清單所給出的答覆。 Pro 存在的理由，就是要恢復 Flash 放棄的推理和長上下文優勢。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro，同時在 Terminal-Bench 上媲美 Flash，那它將是最強的生產前沿模型。如果它只是修補了退步，卻犧牲了代理速度，那就是另一種定位了。

Flash 定價對 Pro 的暗示

Flash 在標準層級以每百萬 token 輸入 $1.50 / 輸出 $9.00 的價格上市——兩個維度都比 Gemini 3.1 Pro 便宜 40%。緩存輸入為每百萬 $0.15，這是以檢索為主的工作負載最引人注目的數字。

對 Pro 定價的直接解讀：

如果 Pro 以 Gemini 3.1 Pro 定價或更高上市（約 $2.50/$15 每百萬 token 或更高），則意味著 Pro 被定位為高階推理層級，而非 Flash 的替代品。
如果 Pro 低於 3.1 Pro 定價但高於 Flash，則定位為預設的「更聰明的 Flash」——相同的產品表面、更高的能力、適度的溢價。
如果 Pro 與 Flash 定價相同，那將很不尋常，並會讓 Flash 陷入 Seedance 2.0 Fast 目前所處的尷尬境地（請參閱我們的 Seedance 2.1 / Mini 預覽了解類似的層級碰撞問題）。

第一個選項最有可能。Google 正在進行一次結構性押注，認為客戶願意為推理層級的分離付費。觀眾的嘆息聲表明市場認為 Flash 已經足夠好，Pro 並無必要；在開發者針對 6 月模型說明進行自己的評估之前，我們不會知道市場是否正確。

6 月還需關注的其他事項

當 Pro 模型說明發布時，有四個具體細節值得關注：

Pro 在程式碼方面是否能媲美 Flash（Terminal-Bench、MCP Atlas）？ 如果是，Pro 就是 Flash 的嚴格超集。如果不是，你將需要執行兩個端點——Flash 用於代理，Pro 用於推理——整合成本將會上升。
長上下文數據。 如果 Pro 恢復了 Gemini 3.1 Pro 在 128K 的優勢，並且擴展到與 Flash 相同的百萬 token 上下文窗口，這是最與生產相關的信號。以 RAG 為主的工作負載應根據這個數字來規劃遷移。
多模態聲明。 Flash 發布時具備與 3.0 系列相同的圖像/影片理解能力。如果 Pro 搭載 Gemini Omni 影片生成整合（截至 5 月 20 日仍為傳聞），那將是 Google 目前尚無法呈現的統一故事。
Pro 是否為思考模型。 Google 最近的推理模型都配備了可選的「思考」模式，以延遲換取準確性。如果 3.5 Pro 預設開啟思考功能，或提供每次請求的控制選項，這將實質性影響你在生產環境中的使用方式。

本月的行動建議

在 Pro 處於內部測試期間，有三個具體步驟可採取：

本週就對 3.5 Flash 執行評估。 它已在 Gemini API、Google AI Studio、Vertex、Antigravity 以及 Gemini 應用程式中上線，模型 ID 為 gemini-3.5-flash。如果 Flash 已能滿足你的工作負載，你可能根本不需要 Pro。
對於長上下文或高難度推理工作負載，目前請繼續使用 Gemini 3.1 Pro。 不要僅僅因為 Flash 是最新模型就向下遷移——在 128K 上退步 7.6 個百分點是真實存在的。等待 Pro。
現在就設定好你的 6 月 A/B 測試。 在 Pro 上市之前，先定義好 Flash → Pro 的比較評估。上市當天就切換的誘惑是真實的；提前針對 Flash 和 3.1 Pro 執行過的保留基準測試的價值則更為真實。

在 Pro 上市之前

對於 LLM 端的工作負載，WaveSpeedAI LLM 端點透過單一 API 金鑰提供與 OpenAI 相容的當前前沿文字模型存取。當 Gemini 3.5 Pro 於 6 月上線時，預計在數日內就能在同一端點下與其進行比較——連同 Flash 和其他前沿文字產品線一起。

來源：MacRumors I/O 2026 總整理、LLM Stats 關於 Gemini 3.5 Flash、Felloai Gemini 3.5 評測、BusinessToday 關於 Gemini Spark 和 3.5。

已確認：Google 關於 3.5 Pro 的說法

Flash 數據對 Pro 的啟示

Flash 勝過 Gemini 3.1 Pro 的地方

Flash 相較 Gemini 3.1 Pro 退步的地方

Flash 定價對 Pro 的暗示

6 月還需關注的其他事項

本月的行動建議

在 Pro 上市之前

相關文章

Claude Fable 5 正式發布：SWE-Bench Pro 得分 80.3%、定價為 Opus 4.8 的 2 倍，6 月 22 日前免費使用

Gemini 3.5 Flash 正式發布——Flash 級模型在 Agent 基準測試上超越 Pro 級

Gemini Omni Flash 正式發布：10 秒多模態影片、SynthID 浮水印標記、音訊編輯功能暫緩推出

Google I/O 2026 的 Gemini 4.0：哪些已確認、哪些來自匿名消息、開發者真正需要關注什麼

Gemini Omni 演示影片剛剛洩露——Google 全新影片模型究竟能做什麼

Google神秘的「Omni」影片模型：Gemini UI洩露在I/O 2026前透露了什麼