Gemini 3.5 Pro 與 Flash：開發者必知重點

說實話，Google I/O 2026 給了我一個意外。Flash 模型發布了，旗艦版沒有，而 Flash 模型的表現反而超越了上一季的旗艦。這就是 Gemini 3.5 Pro 的整個故事——只不過 Pro 還沒出來，所以現在大家說的一半都是猜測。這篇文章把已確認的事實和「已宣布但未驗證」的部分分開來，告訴你在等待期間該如何分配流量。

我從 3.x 系列開始就一直在 Gemini 各層之間移動生產流量，所以我會具體說明模型 ID 和價格。至於我不知道的地方——還有很多，因為 Pro 還沒出來——我會直說。

Google I/O 2026 上 Gemini 3.5 實際發布的內容

Google 於 2026 年 5 月 19 日舉行了 I/O 主題演講。3.5 系列發生了兩件事：一個模型正式上線，另一個只拿到了一個日期，其他什麼都沒有。

3.5 Flash：5 月 19 日正式 GA，穩定 API ID 為 gemini-3.5-flash

Gemini 3.5 Flash 在主題演講當天正式全面開放（GA）。這不是預覽版，也不是實驗性別名——模型是穩定的，可以用 gemini-3.5-flash 呼叫。對於那些曾在預覽 ID 遷移中踩過坑的人來說，這一點很重要。根據 Google DeepMind 官方 Gemini 3.5 Flash 模型頁面，它支援跨文字、音訊、圖像、程式碼和影片的理解。發布當天就已部署至 Gemini 應用程式、搜尋中的 AI 模式、Google AI Studio 中的 Gemini API、Vertex AI 以及 Antigravity 2.0。

規格表供參考：輸入視窗 1,048,576 個 token，最大輸出 65,536 個 token，知識截止日期為 2026 年 1 月。動態思考預設開啟——模型自行決定每個問題要花多少運算量，而不是等你設定預算。

3.5 Pro：宣布 6 月發布，尚無 API ID

Pro 在台上只得到了一句話。Sundar Pichai 說它正在內部測試中，「下個月」發布，也就是 2026 年 6 月。9to5Google 的 I/O 2026 彙整報導也確認了同樣的說法：Pro 在測試中，下個月推出，沒有更具體的內容。據報導，現場觀眾對於延期發出了嘆息聲——這說明 Pro 才是大家來這裡的主要原因。

沒有 API 模型 ID。沒有定價。沒有確切日期。如果你現在要基於 Pro 來開發，你是在對著一份新聞稿寫程式。

原有的層級架構被倒置的地方

這部分值得放慢腳步仔細看。舊的思維模式很簡單：難題用 Pro，吞吐量用 Flash。3.5 Flash 打破了這個模式。它在大多數基準測試中都超越了 Gemini 3.1 Pro——也就是 2026 年 2 月的旗艦版——同時成本更低、速度更快。「輕量級」層級現在的表現超過了上一代的旗艦。

所以 Google 拋給每個開發者的問題很不舒服：當下一代 Flash 已經超過你舊的 Pro 時，付費買 Pro 模型還有意義嗎？對很多工作負載來說，現在誠實的答案是沒有。我稍後會回來討論什麼時候仍然值得。

Gemini 3.5 Flash 帶給生產環境的改變

規格是一回事。它的成本以及實際上在哪裡有幫助又是另一回事。

與 3.1 Pro 相比的定價和延遲概況

Gemini 3.5 Flash 定價在標準層為每百萬輸入 token $1.50，每百萬輸出 token $9.00。快取輸入為每百萬 $0.15。Google 表示 3.5 Flash 的輸出速度大約比同層的其他前沿模型快 4 倍。

有一點需要坦誠說明：如果你是從 Flash-Lite 升級過來的，這不是一次便宜的升級。從 $0.25 / $1.50 的 Flash-Lite 費率升到 $1.50 / $9.00，輸出端大約漲了 6 倍。你付費是為了代理和多模態能力的提升，而不是降低成本。如果你的任務是普通的提取或路由，繼續用便宜的路線。（價格確實漲了。假裝沒漲是不誠實的。）

代理和程式碼基準測試結果

Google 公布的 gemini 3.5 基準測試數字，照單全收的話：Terminal-Bench 2.1（程式碼）76.2%，GDPval-AA（代理任務表現）1656 Elo，MCP Atlas（大規模工具使用可靠性）83.6%，CharXiv Reasoning（多模態理解）84.2%。

標準基準測試的注意事項依然適用：每項任務的結果因工作負載、提示策略和 token 組合而異。排行榜數字是起始假設，不是你的生產結果。在相信標題數字之前，先跑自己的評估。

多模態理解（文字、圖像、音訊、影片輸入）

Flash 接受文字、圖像、音訊、影片和 PDF 作為輸入，你可以在一個請求中組合使用它們。Google AI Studio 中的 Gemini 3.5 Flash 官方文件涵蓋了遷移細節——包括 Google 搜尋、URL 上下文、程式碼執行和自訂函數可以在同一次呼叫中運行。如果你之前在用思維鏈提示技巧來強制推理，文件說放棄那些，改用 thinking_level。

它不會生成什麼（圖像／影片／音訊輸出限制）

這是我看到人們最常搞錯的地方，所以請讀兩遍。Gemini 3.5 Flash 接受多模態輸入，輸出文字。它不生成圖像。它不生成影片。它不生成音訊。多模態理解不等於多模態生成。

如果你需要生成影片，那是 Gemini Omni——Google 在同一場活動上宣布的獨立模型系列，而不是 3.5 的變體。Computer Use 在 3.5 Flash 上也不支援；Google 說這種用途繼續使用 Gemini 3 Flash Preview。輸出生成和瀏覽器控制任務請路由到其他地方。3.5 Flash 是一個推理和理解引擎，僅此而已。

關於 Gemini 3.5 Pro 已知和未知的部分

大家一直在問 Gemini 3.5 Pro 會帶來什麼。網路上大多數答案都是推斷。以下是已知與未知的區別。

已確認：6 月發布視窗、多模態輸入

Google 實際承諾的內容：Pro 在 2026 年 6 月發布，現在正在內部使用，在 3.5 系列中作為深度推理層位於 Flash 之上。MacRumors 的 I/O 2026 彙整報導記錄了同樣的內容——內部測試中，下個月推出。這就是已確認的全部，內容很少。

未確認：定價、API ID、確切發布日期

開發者實際需要整合的一切都未確認。沒有定價。沒有 API 模型 ID。除了「6 月」之外沒有具體的發布日期。也沒有專門針對 Pro 公布的基準測試數字——你看到的任何將 3.5 Pro 與其他模型比較的內容都是推論，而非 Google 的數據。如果某篇文章以確定的語氣引用 3.5 Pro 的價格或 2M token 上下文數字，請把它當作一個自信外表下的猜測。

Google 分階段推出的典型模式（Ultra → Pro → 免費）

根據 3.x 系列的推出方式，以下是我的判斷——標記為一種模式，而非承諾。Google 傾向於先在較高層級和付費服務上落地，然後在幾週內向下擴展存取範圍。所以 Pro 很可能會先出現在付費 Gemini 應用程式層級和 Vertex/AI Studio 付費 API，然後才出現在任何免費配額上（如果能進入免費層的話）。免費層是否包含 Pro 目前真的未知。我不會圍繞一個「也許」來規劃免費層 Pro 產品。

開發者應如何在 3.5 Flash 和 3.5 Pro 之間路由

你無法路由到一個還不存在的模型。所以這個問題其實是：今天在 Flash 上跑什麼，以及什麼要等 Pro。

Flash 足夠的場景（對延遲敏感的代理工作）

對於大多數代理和程式碼工作，Flash 已經足夠——這正是層級倒置的意義所在。如果你的工作負載是多步驟工具使用、程式碼循環、文件密集型助手或搜尋驅動的管道，而且你在意延遲，3.5 Flash 可以勝任。4 倍的輸出速度在你運行長代理循環時最為明顯，而不是單次呼叫。每個循環少一個慢步驟聽起來很小。規模化之後累積起來很快。

值得等待 Pro 的場景（深度推理、長上下文）

當任務真正受推理限制且對延遲容忍度高時，等待 Pro：深度分析鏈、召回品質比速度更重要的超長上下文、錯誤答案的代價高於慢答案的問題。我需要在這裡謹慎說明——我描述的是 Pro 層的預期角色，因為我無法對一個沒有跑過的模型做基準測試。如果 Flash 在測試中已經達到你的準確度標準，等待 Pro 只會帶來更大的帳單。

跨層級的備用模式

我今天會建立的模式：預設使用 Flash，為提取和路由任務保留一條更便宜的路線（Flash-Lite 或 2.5 Flash），並留一個配置槽給 Pro，等它發布且你評估完後可以切換。不要硬編碼單一模型。3.5 的發布剛剛證明層級架構可以在一個季度內翻轉——你的路由層應該把模型選擇當作變數，而不是常數。

Gemini 3.5 在多模態生成技術棧中的定位

如果你正在開發任何涉及圖像或影片輸出的東西，這一節能讓你避免一個錯誤的架構選擇。

決策層與執行層的分離

3.5 Flash 是決策層，不是媒體的執行層。它負責推理、規劃、呼叫工具、跨模態解析輸入，以及決定應該發生什麼。它不渲染像素或幀。在你的架構中把這兩個工作分開：讓 Gemini 3.5 處理路由、提示和品質判斷；讓專用的生成模型來做生產。把它們混在一起，就會讓你去問一個只能輸出文字的模型為什麼不能生成影片。

將 Gemini 3.5 與圖像／影片生成模型配對

清晰的模式：Gemini 3.5 接收摘要、參考圖像、音軌——無論輸入組合是什麼——推理應該生成什麼，然後輸出結構化指令或提示。下游的生成模型接收這些並生產資產。

常見問題

Gemini 3.5 Pro 何時可用？

根據 Google 的 I/O 公告，2026 年 6 月。目前尚未公布確切日期，仍在內部測試中。

Gemini 3.5 Flash 的 API 模型 ID 是什麼？

gemini-3.5-flash。這是穩定的生產 GA 識別符（自 2026 年 5 月 19 日起上線）。

Gemini 3.5 Pro 能生成圖像或影片嗎？

不太可能。整個 3.5 系列支援多模態輸入（文字、圖像、音訊、影片），但只輸出文字。圖像／影片／音訊生成屬於獨立的模型，如 Gemini Omni。

Gemini 3.5 Flash 比 3.1 Pro 便宜嗎？

以每 token 計算是的（$1.50/$9.00 對比之前的 Pro 層），而且更快。但如果從舊版 Flash-Lite 模型遷移過來，輸出成本會大幅上漲（約 6 倍）。

我可以通過模型聚合平台存取 Gemini 3.5 嗎？

Flash 可以（已在 OpenRouter 等平台以標準定價提供）。Pro 尚未發布，因此聚合支援將取決於各平台的推出時程。

往期文章：