← 部落格

Gemini 3.5 Pro 下個月即將到來——Flash 版本已透露的訊息

Google 在 I/O 2026 上發布了 Gemini 3.5 Flash,並將 Pro 版本推遲至六月。Flash 已在程式碼和代理基準測試上超越 Gemini 3.1 Pro,但在複雜推理方面有所退步——這正是 Pro 需要彌補的差距。以下是已知資訊、未知資訊,以及如何提前規劃。

By WaveSpeedAI 3 min read

I/O 2026 主題演講的隔天,主題演講前的問題——Google 究竟會發布「Gemini 3.5」還是「Gemini 4.0」——終於有了答案。答案是 3.5。但更值得關注的是 Google 實際發布了什麼,又保留了什麼:Gemini 3.5 Flash 於 5 月 19 日正式上線普通版;Gemini 3.5 Pro 則「下個月才會推出」。 Sundar Pichai 在台上的原話是:「再給我們一個月的時間。」

據報導,現場觀眾發出了嘆息聲。這個反應情有可原,但這個差距其實比表面上看起來更耐人尋味。Flash 在對開發者最重要的基準測試上已超越了 Gemini 3.1 Pro——但在一組特定的推理和長上下文基準測試上卻出現了退步。Pro 晚一個月上市,幾乎可以確定是 Google 針對這些退步所給出的答覆。以下是 Flash 的發布告訴我們的關於 Pro 究竟會是什麼樣子。

已確認:Google 關於 3.5 Pro 的說法

Google 在台上關於 Pro 的陳述非常有限。確認的完整資訊如下:

細節來源狀態
「下個月」(2026 年 6 月)發布Pichai 主題演講已確認
目前處於內部測試階段Pichai 主題演講已確認
將與 Flash 共享程式碼/代理聚焦方向I/O 訊息已確認
具體基準測試數據未公開
定價未公開
上下文窗口未公開
模型 ID未公開

就這些。沒有基準測試、沒有定價、沒有模型說明。Pro 的發布只有一個意向聲明和一個時程表。

Flash 數據對 Pro 的啟示

這才是真正有用的地方。Gemini 3.5 Flash 在同一天發布並附帶了完整的基準測試數據,與上一代 Gemini 3.1 Pro 的比較清楚揭示了新一代在哪些方面更強,在哪些方面更弱。

Flash 勝過 Gemini 3.1 Pro 的地方

基準測試3.5 Flash3.1 Pro差異
Terminal-Bench 2.176.2%70.3%+5.9
MCP Atlas83.6%78.2%+5.4
Finance Agent v257.9%43.0%+14.9
GDPval-AA1656 Elo1314 Elo+342

這些全都是程式碼和代理基準測試——也就是 Claude 一直是開發者首選的那些類別。Flash 現在在這些測試上與 Claude 的差距,已比上一代 Pro 更小。 這是產品上的重大變化,而非微小調整。

Flash 相較 Gemini 3.1 Pro 退步的地方

基準測試3.5 Flash3.1 Pro差異
Humanity’s Last Exam40.2%44.4%−4.2
ARC-AGI-272.1%77.1%−5.0
長上下文(128K)77.3%84.9%−7.6

這三項恰好是你最期待 Pro 層級能夠脫穎而出的基準測試。難度推理、抽象模式匹配、長上下文檢索。前兩項考驗深度;第三項考驗大規模的召回能力。Flash 在每項上退步 4-8 個百分點,說明 Flash 架構為了達到速度和成本指標而做出了刻意的取捨。

6 月的 3.5 Pro 發布幾乎可以確定正是針對這份清單所給出的答覆。 Pro 存在的理由,就是要恢復 Flash 放棄的推理和長上下文優勢。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,同時在 Terminal-Bench 上媲美 Flash,那它將是最強的生產前沿模型。如果它只是修補了退步,卻犧牲了代理速度,那就是另一種定位了。

Flash 定價對 Pro 的暗示

Flash 在標準層級以每百萬 token 輸入 $1.50 / 輸出 $9.00 的價格上市——兩個維度都比 Gemini 3.1 Pro 便宜 40%。緩存輸入為每百萬 $0.15,這是以檢索為主的工作負載最引人注目的數字。

對 Pro 定價的直接解讀:

  • 如果 Pro 以 Gemini 3.1 Pro 定價或更高上市(約 $2.50/$15 每百萬 token 或更高),則意味著 Pro 被定位為高階推理層級,而非 Flash 的替代品。
  • 如果 Pro 低於 3.1 Pro 定價但高於 Flash,則定位為預設的「更聰明的 Flash」——相同的產品表面、更高的能力、適度的溢價。
  • 如果 Pro 與 Flash 定價相同,那將很不尋常,並會讓 Flash 陷入 Seedance 2.0 Fast 目前所處的尷尬境地(請參閱我們的 Seedance 2.1 / Mini 預覽了解類似的層級碰撞問題)。

第一個選項最有可能。Google 正在進行一次結構性押注,認為客戶願意為推理層級的分離付費。觀眾的嘆息聲表明市場認為 Flash 已經足夠好,Pro 並無必要;在開發者針對 6 月模型說明進行自己的評估之前,我們不會知道市場是否正確。

6 月還需關注的其他事項

當 Pro 模型說明發布時,有四個具體細節值得關注:

  1. Pro 在程式碼方面是否能媲美 Flash(Terminal-Bench、MCP Atlas)? 如果是,Pro 就是 Flash 的嚴格超集。如果不是,你將需要執行兩個端點——Flash 用於代理,Pro 用於推理——整合成本將會上升。
  2. 長上下文數據。 如果 Pro 恢復了 Gemini 3.1 Pro 在 128K 的優勢,並且擴展到與 Flash 相同的百萬 token 上下文窗口,這是最與生產相關的信號。以 RAG 為主的工作負載應根據這個數字來規劃遷移。
  3. 多模態聲明。 Flash 發布時具備與 3.0 系列相同的圖像/影片理解能力。如果 Pro 搭載 Gemini Omni 影片生成整合(截至 5 月 20 日仍為傳聞),那將是 Google 目前尚無法呈現的統一故事。
  4. Pro 是否為思考模型。 Google 最近的推理模型都配備了可選的「思考」模式,以延遲換取準確性。如果 3.5 Pro 預設開啟思考功能,或提供每次請求的控制選項,這將實質性影響你在生產環境中的使用方式。

本月的行動建議

在 Pro 處於內部測試期間,有三個具體步驟可採取:

  1. 本週就對 3.5 Flash 執行評估。 它已在 Gemini API、Google AI Studio、Vertex、Antigravity 以及 Gemini 應用程式中上線,模型 ID 為 gemini-3.5-flash。如果 Flash 已能滿足你的工作負載,你可能根本不需要 Pro。
  2. 對於長上下文或高難度推理工作負載,目前請繼續使用 Gemini 3.1 Pro。 不要僅僅因為 Flash 是最新模型就向下遷移——在 128K 上退步 7.6 個百分點是真實存在的。等待 Pro。
  3. 現在就設定好你的 6 月 A/B 測試。 在 Pro 上市之前,先定義好 Flash → Pro 的比較評估。上市當天就切換的誘惑是真實的;提前針對 Flash 和 3.1 Pro 執行過的保留基準測試的價值則更為真實。

在 Pro 上市之前

對於 LLM 端的工作負載,WaveSpeedAI LLM 端點透過單一 API 金鑰提供與 OpenAI 相容的當前前沿文字模型存取。當 Gemini 3.5 Pro 於 6 月上線時,預計在數日內就能在同一端點下與其進行比較——連同 Flash 和其他前沿文字產品線一起。

來源:MacRumors I/O 2026 總整理LLM Stats 關於 Gemini 3.5 FlashFelloai Gemini 3.5 評測BusinessToday 關於 Gemini Spark 和 3.5