Gemini 3.5 Pro 與 Flash:開發者必知重點
Google 在 I/O 2026 發布了 Gemini 3.5 Flash,Pro 版本則預計於六月推出。以下是開發者需要了解的各層級特點及路由選擇方式。
說實話,Google I/O 2026 給了我一個意外。Flash 模型發布了,旗艦版沒有,而 Flash 模型的表現反而超越了上一季的旗艦。這就是 Gemini 3.5 Pro 的整個故事——只不過 Pro 還沒出來,所以現在大家說的一半都是猜測。這篇文章把已確認的事實和「已宣布但未驗證」的部分分開來,告訴你在等待期間該如何分配流量。
我從 3.x 系列開始就一直在 Gemini 各層之間移動生產流量,所以我會具體說明模型 ID 和價格。至於我不知道的地方——還有很多,因為 Pro 還沒出來——我會直說。
Google I/O 2026 上 Gemini 3.5 實際發布的內容

Google 於 2026 年 5 月 19 日舉行了 I/O 主題演講。3.5 系列發生了兩件事:一個模型正式上線,另一個只拿到了一個日期,其他什麼都沒有。
3.5 Flash:5 月 19 日正式 GA,穩定 API ID 為 gemini-3.5-flash
Gemini 3.5 Flash 在主題演講當天正式全面開放(GA)。這不是預覽版,也不是實驗性別名——模型是穩定的,可以用 gemini-3.5-flash 呼叫。對於那些曾在預覽 ID 遷移中踩過坑的人來說,這一點很重要。根據 Google DeepMind 官方 Gemini 3.5 Flash 模型頁面,它支援跨文字、音訊、圖像、程式碼和影片的理解。發布當天就已部署至 Gemini 應用程式、搜尋中的 AI 模式、Google AI Studio 中的 Gemini API、Vertex AI 以及 Antigravity 2.0。
規格表供參考:輸入視窗 1,048,576 個 token,最大輸出 65,536 個 token,知識截止日期為 2026 年 1 月。動態思考預設開啟——模型自行決定每個問題要花多少運算量,而不是等你設定預算。
3.5 Pro:宣布 6 月發布,尚無 API ID
Pro 在台上只得到了一句話。Sundar Pichai 說它正在內部測試中,「下個月」發布,也就是 2026 年 6 月。9to5Google 的 I/O 2026 彙整報導也確認了同樣的說法:Pro 在測試中,下個月推出,沒有更具體的內容。據報導,現場觀眾對於延期發出了嘆息聲——這說明 Pro 才是大家來這裡的主要原因。
沒有 API 模型 ID。沒有定價。沒有確切日期。如果你現在要基於 Pro 來開發,你是在對著一份新聞稿寫程式。
原有的層級架構被倒置的地方
這部分值得放慢腳步仔細看。舊的思維模式很簡單:難題用 Pro,吞吐量用 Flash。3.5 Flash 打破了這個模式。它在大多數基準測試中都超越了 Gemini 3.1 Pro——也就是 2026 年 2 月的旗艦版——同時成本更低、速度更快。「輕量級」層級現在的表現超過了上一代的旗艦。
所以 Google 拋給每個開發者的問題很不舒服:當下一代 Flash 已經超過你舊的 Pro 時,付費買 Pro 模型還有意義嗎?對很多工作負載來說,現在誠實的答案是沒有。我稍後會回來討論什麼時候仍然值得。
Gemini 3.5 Flash 帶給生產環境的改變

規格是一回事。它的成本以及實際上在哪裡有幫助又是另一回事。
與 3.1 Pro 相比的定價和延遲概況
Gemini 3.5 Flash 定價在標準層為每百萬輸入 token $1.50,每百萬輸出 token $9.00。快取輸入為每百萬 $0.15。Google 表示 3.5 Flash 的輸出速度大約比同層的其他前沿模型快 4 倍。
有一點需要坦誠說明:如果你是從 Flash-Lite 升級過來的,這不是一次便宜的升級。從 $0.25 / $1.50 的 Flash-Lite 費率升到 $1.50 / $9.00,輸出端大約漲了 6 倍。你付費是為了代理和多模態能力的提升,而不是降低成本。如果你的任務是普通的提取或路由,繼續用便宜的路線。(價格確實漲了。假裝沒漲是不誠實的。)
代理和程式碼基準測試結果
Google 公布的 gemini 3.5 基準測試數字,照單全收的話:Terminal-Bench 2.1(程式碼)76.2%,GDPval-AA(代理任務表現)1656 Elo,MCP Atlas(大規模工具使用可靠性)83.6%,CharXiv Reasoning(多模態理解)84.2%。
標準基準測試的注意事項依然適用:每項任務的結果因工作負載、提示策略和 token 組合而異。排行榜數字是起始假設,不是你的生產結果。在相信標題數字之前,先跑自己的評估。
多模態理解(文字、圖像、音訊、影片輸入)

Flash 接受文字、圖像、音訊、影片和 PDF 作為輸入,你可以在一個請求中組合使用它們。Google AI Studio 中的 Gemini 3.5 Flash 官方文件涵蓋了遷移細節——包括 Google 搜尋、URL 上下文、程式碼執行和自訂函數可以在同一次呼叫中運行。如果你之前在用思維鏈提示技巧來強制推理,文件說放棄那些,改用 thinking_level。
它不會生成什麼(圖像/影片/音訊輸出限制)
這是我看到人們最常搞錯的地方,所以請讀兩遍。Gemini 3.5 Flash 接受多模態輸入,輸出文字。它不生成圖像。它不生成影片。它不生成音訊。多模態理解不等於多模態生成。
如果你需要生成影片,那是 Gemini Omni——Google 在同一場活動上宣布的獨立模型系列,而不是 3.5 的變體。Computer Use 在 3.5 Flash 上也不支援;Google 說這種用途繼續使用 Gemini 3 Flash Preview。輸出生成和瀏覽器控制任務請路由到其他地方。3.5 Flash 是一個推理和理解引擎,僅此而已。
關於 Gemini 3.5 Pro 已知和未知的部分

大家一直在問 Gemini 3.5 Pro 會帶來什麼。網路上大多數答案都是推斷。以下是已知與未知的區別。
已確認:6 月發布視窗、多模態輸入
Google 實際承諾的內容:Pro 在 2026 年 6 月發布,現在正在內部使用,在 3.5 系列中作為深度推理層位於 Flash 之上。MacRumors 的 I/O 2026 彙整報導記錄了同樣的內容——內部測試中,下個月推出。這就是已確認的全部,內容很少。
未確認:定價、API ID、確切發布日期
開發者實際需要整合的一切都未確認。沒有定價。沒有 API 模型 ID。除了「6 月」之外沒有具體的發布日期。也沒有專門針對 Pro 公布的基準測試數字——你看到的任何將 3.5 Pro 與其他模型比較的內容都是推論,而非 Google 的數據。如果某篇文章以確定的語氣引用 3.5 Pro 的價格或 2M token 上下文數字,請把它當作一個自信外表下的猜測。
Google 分階段推出的典型模式(Ultra → Pro → 免費)
根據 3.x 系列的推出方式,以下是我的判斷——標記為一種模式,而非承諾。Google 傾向於先在較高層級和付費服務上落地,然後在幾週內向下擴展存取範圍。所以 Pro 很可能會先出現在付費 Gemini 應用程式層級和 Vertex/AI Studio 付費 API,然後才出現在任何免費配額上(如果能進入免費層的話)。免費層是否包含 Pro 目前真的未知。我不會圍繞一個「也許」來規劃免費層 Pro 產品。
開發者應如何在 3.5 Flash 和 3.5 Pro 之間路由
你無法路由到一個還不存在的模型。所以這個問題其實是:今天在 Flash 上跑什麼,以及什麼要等 Pro。
Flash 足夠的場景(對延遲敏感的代理工作)
對於大多數代理和程式碼工作,Flash 已經足夠——這正是層級倒置的意義所在。如果你的工作負載是多步驟工具使用、程式碼循環、文件密集型助手或搜尋驅動的管道,而且你在意延遲,3.5 Flash 可以勝任。4 倍的輸出速度在你運行長代理循環時最為明顯,而不是單次呼叫。每個循環少一個慢步驟聽起來很小。規模化之後累積起來很快。
值得等待 Pro 的場景(深度推理、長上下文)
當任務真正受推理限制且對延遲容忍度高時,等待 Pro:深度分析鏈、召回品質比速度更重要的超長上下文、錯誤答案的代價高於慢答案的問題。我需要在這裡謹慎說明——我描述的是 Pro 層的預期角色,因為我無法對一個沒有跑過的模型做基準測試。如果 Flash 在測試中已經達到你的準確度標準,等待 Pro 只會帶來更大的帳單。
跨層級的備用模式
我今天會建立的模式:預設使用 Flash,為提取和路由任務保留一條更便宜的路線(Flash-Lite 或 2.5 Flash),並留一個配置槽給 Pro,等它發布且你評估完後可以切換。不要硬編碼單一模型。3.5 的發布剛剛證明層級架構可以在一個季度內翻轉——你的路由層應該把模型選擇當作變數,而不是常數。
Gemini 3.5 在多模態生成技術棧中的定位
如果你正在開發任何涉及圖像或影片輸出的東西,這一節能讓你避免一個錯誤的架構選擇。
決策層與執行層的分離
3.5 Flash 是決策層,不是媒體的執行層。它負責推理、規劃、呼叫工具、跨模態解析輸入,以及決定應該發生什麼。它不渲染像素或幀。在你的架構中把這兩個工作分開:讓 Gemini 3.5 處理路由、提示和品質判斷;讓專用的生成模型來做生產。把它們混在一起,就會讓你去問一個只能輸出文字的模型為什麼不能生成影片。
將 Gemini 3.5 與圖像/影片生成模型配對
清晰的模式:Gemini 3.5 接收摘要、參考圖像、音軌——無論輸入組合是什麼——推理應該生成什麼,然後輸出結構化指令或提示。下游的生成模型接收這些並生產資產。
常見問題

Gemini 3.5 Pro 何時可用?
根據 Google 的 I/O 公告,2026 年 6 月。目前尚未公布確切日期,仍在內部測試中。
Gemini 3.5 Flash 的 API 模型 ID 是什麼?
gemini-3.5-flash。這是穩定的生產 GA 識別符(自 2026 年 5 月 19 日起上線)。
Gemini 3.5 Pro 能生成圖像或影片嗎?
不太可能。整個 3.5 系列支援多模態輸入(文字、圖像、音訊、影片),但只輸出文字。圖像/影片/音訊生成屬於獨立的模型,如 Gemini Omni。
Gemini 3.5 Flash 比 3.1 Pro 便宜嗎?
以每 token 計算是的($1.50/$9.00 對比之前的 Pro 層),而且更快。但如果從舊版 Flash-Lite 模型遷移過來,輸出成本會大幅上漲(約 6 倍)。
我可以通過模型聚合平台存取 Gemini 3.5 嗎?
Flash 可以(已在 OpenRouter 等平台以標準定價提供)。Pro 尚未發布,因此聚合支援將取決於各平台的推出時程。
往期文章:
- Gemini 3.5 Flash vs Omni Flash vs Veo vs Sora: Where Each Model Fits
- What Is Veo 4 and Why Google’s Video Stack Matters
- Google Veo 4 API Prep: What Builders Should Do Before Access Arrives
- Best AI Video Generator 2026: What Actually Holds Up in Production
- June 2026 AI Launch Wave: Why Model Tiers Are Shifting Faster Than Teams Expect





