← 部落格

Gemini 3.5 Pro 與 Flash:開發者必知重點

Google 在 I/O 2026 發布了 Gemini 3.5 Flash,Pro 版本則預計於六月推出。以下是開發者需要了解的各層級特點及路由選擇方式。

By Dora 3 min read
Gemini 3.5 Pro 與 Flash:開發者必知重點

說實話,Google I/O 2026 給了我一個意外。Flash 模型發布了,旗艦版沒有,而 Flash 模型的表現反而超越了上一季的旗艦。這就是 Gemini 3.5 Pro 的整個故事——只不過 Pro 還沒出來,所以現在大家說的一半都是猜測。這篇文章把已確認的事實和「已宣布但未驗證」的部分分開來,告訴你在等待期間該如何分配流量。

我從 3.x 系列開始就一直在 Gemini 各層之間移動生產流量,所以我會具體說明模型 ID 和價格。至於我不知道的地方——還有很多,因為 Pro 還沒出來——我會直說。

Google I/O 2026 上 Gemini 3.5 實際發布的內容

Google 於 2026 年 5 月 19 日舉行了 I/O 主題演講。3.5 系列發生了兩件事:一個模型正式上線,另一個只拿到了一個日期,其他什麼都沒有。

3.5 Flash:5 月 19 日正式 GA,穩定 API ID 為 gemini-3.5-flash

Gemini 3.5 Flash 在主題演講當天正式全面開放(GA)。這不是預覽版,也不是實驗性別名——模型是穩定的,可以用 gemini-3.5-flash 呼叫。對於那些曾在預覽 ID 遷移中踩過坑的人來說,這一點很重要。根據 Google DeepMind 官方 Gemini 3.5 Flash 模型頁面,它支援跨文字、音訊、圖像、程式碼和影片的理解。發布當天就已部署至 Gemini 應用程式、搜尋中的 AI 模式、Google AI Studio 中的 Gemini API、Vertex AI 以及 Antigravity 2.0。

規格表供參考:輸入視窗 1,048,576 個 token,最大輸出 65,536 個 token,知識截止日期為 2026 年 1 月。動態思考預設開啟——模型自行決定每個問題要花多少運算量,而不是等你設定預算。

3.5 Pro:宣布 6 月發布,尚無 API ID

Pro 在台上只得到了一句話。Sundar Pichai 說它正在內部測試中,「下個月」發布,也就是 2026 年 6 月。9to5Google 的 I/O 2026 彙整報導也確認了同樣的說法:Pro 在測試中,下個月推出,沒有更具體的內容。據報導,現場觀眾對於延期發出了嘆息聲——這說明 Pro 才是大家來這裡的主要原因。

沒有 API 模型 ID。沒有定價。沒有確切日期。如果你現在要基於 Pro 來開發,你是在對著一份新聞稿寫程式。

原有的層級架構被倒置的地方

這部分值得放慢腳步仔細看。舊的思維模式很簡單:難題用 Pro,吞吐量用 Flash。3.5 Flash 打破了這個模式。它在大多數基準測試中都超越了 Gemini 3.1 Pro——也就是 2026 年 2 月的旗艦版——同時成本更低、速度更快。「輕量級」層級現在的表現超過了上一代的旗艦。

所以 Google 拋給每個開發者的問題很不舒服:當下一代 Flash 已經超過你舊的 Pro 時,付費買 Pro 模型還有意義嗎?對很多工作負載來說,現在誠實的答案是沒有。我稍後會回來討論什麼時候仍然值得。

Gemini 3.5 Flash 帶給生產環境的改變

規格是一回事。它的成本以及實際上在哪裡有幫助又是另一回事。

與 3.1 Pro 相比的定價和延遲概況

Gemini 3.5 Flash 定價在標準層為每百萬輸入 token $1.50,每百萬輸出 token $9.00。快取輸入為每百萬 $0.15。Google 表示 3.5 Flash 的輸出速度大約比同層的其他前沿模型快 4 倍。

有一點需要坦誠說明:如果你是從 Flash-Lite 升級過來的,這不是一次便宜的升級。從 $0.25 / $1.50 的 Flash-Lite 費率升到 $1.50 / $9.00,輸出端大約漲了 6 倍。你付費是為了代理和多模態能力的提升,而不是降低成本。如果你的任務是普通的提取或路由,繼續用便宜的路線。(價格確實漲了。假裝沒漲是不誠實的。)

代理和程式碼基準測試結果

Google 公布的 gemini 3.5 基準測試數字,照單全收的話:Terminal-Bench 2.1(程式碼)76.2%,GDPval-AA(代理任務表現)1656 Elo,MCP Atlas(大規模工具使用可靠性)83.6%,CharXiv Reasoning(多模態理解)84.2%。

標準基準測試的注意事項依然適用:每項任務的結果因工作負載、提示策略和 token 組合而異。排行榜數字是起始假設,不是你的生產結果。在相信標題數字之前,先跑自己的評估。

多模態理解(文字、圖像、音訊、影片輸入)

Flash 接受文字、圖像、音訊、影片和 PDF 作為輸入,你可以在一個請求中組合使用它們。Google AI Studio 中的 Gemini 3.5 Flash 官方文件涵蓋了遷移細節——包括 Google 搜尋、URL 上下文、程式碼執行和自訂函數可以在同一次呼叫中運行。如果你之前在用思維鏈提示技巧來強制推理,文件說放棄那些,改用 thinking_level。

它不會生成什麼(圖像/影片/音訊輸出限制)

這是我看到人們最常搞錯的地方,所以請讀兩遍。Gemini 3.5 Flash 接受多模態輸入,輸出文字。它不生成圖像。它不生成影片。它不生成音訊。多模態理解不等於多模態生成。

如果你需要生成影片,那是 Gemini Omni——Google 在同一場活動上宣布的獨立模型系列,而不是 3.5 的變體。Computer Use 在 3.5 Flash 上也不支援;Google 說這種用途繼續使用 Gemini 3 Flash Preview。輸出生成和瀏覽器控制任務請路由到其他地方。3.5 Flash 是一個推理和理解引擎,僅此而已。

關於 Gemini 3.5 Pro 已知和未知的部分

大家一直在問 Gemini 3.5 Pro 會帶來什麼。網路上大多數答案都是推斷。以下是已知與未知的區別。

已確認:6 月發布視窗、多模態輸入

Google 實際承諾的內容:Pro 在 2026 年 6 月發布,現在正在內部使用,在 3.5 系列中作為深度推理層位於 Flash 之上。MacRumors 的 I/O 2026 彙整報導記錄了同樣的內容——內部測試中,下個月推出。這就是已確認的全部,內容很少。

未確認:定價、API ID、確切發布日期

開發者實際需要整合的一切都未確認。沒有定價。沒有 API 模型 ID。除了「6 月」之外沒有具體的發布日期。也沒有專門針對 Pro 公布的基準測試數字——你看到的任何將 3.5 Pro 與其他模型比較的內容都是推論,而非 Google 的數據。如果某篇文章以確定的語氣引用 3.5 Pro 的價格或 2M token 上下文數字,請把它當作一個自信外表下的猜測。

Google 分階段推出的典型模式(Ultra → Pro → 免費)

根據 3.x 系列的推出方式,以下是我的判斷——標記為一種模式,而非承諾。Google 傾向於先在較高層級和付費服務上落地,然後在幾週內向下擴展存取範圍。所以 Pro 很可能會先出現在付費 Gemini 應用程式層級和 Vertex/AI Studio 付費 API,然後才出現在任何免費配額上(如果能進入免費層的話)。免費層是否包含 Pro 目前真的未知。我不會圍繞一個「也許」來規劃免費層 Pro 產品。

開發者應如何在 3.5 Flash 和 3.5 Pro 之間路由

你無法路由到一個還不存在的模型。所以這個問題其實是:今天在 Flash 上跑什麼,以及什麼要等 Pro。

Flash 足夠的場景(對延遲敏感的代理工作)

對於大多數代理和程式碼工作,Flash 已經足夠——這正是層級倒置的意義所在。如果你的工作負載是多步驟工具使用、程式碼循環、文件密集型助手或搜尋驅動的管道,而且你在意延遲,3.5 Flash 可以勝任。4 倍的輸出速度在你運行長代理循環時最為明顯,而不是單次呼叫。每個循環少一個慢步驟聽起來很小。規模化之後累積起來很快。

值得等待 Pro 的場景(深度推理、長上下文)

當任務真正受推理限制且對延遲容忍度高時,等待 Pro:深度分析鏈、召回品質比速度更重要的超長上下文、錯誤答案的代價高於慢答案的問題。我需要在這裡謹慎說明——我描述的是 Pro 層的預期角色,因為我無法對一個沒有跑過的模型做基準測試。如果 Flash 在測試中已經達到你的準確度標準,等待 Pro 只會帶來更大的帳單。

跨層級的備用模式

我今天會建立的模式:預設使用 Flash,為提取和路由任務保留一條更便宜的路線(Flash-Lite 或 2.5 Flash),並留一個配置槽給 Pro,等它發布且你評估完後可以切換。不要硬編碼單一模型。3.5 的發布剛剛證明層級架構可以在一個季度內翻轉——你的路由層應該把模型選擇當作變數,而不是常數。

Gemini 3.5 在多模態生成技術棧中的定位

如果你正在開發任何涉及圖像或影片輸出的東西,這一節能讓你避免一個錯誤的架構選擇。

決策層與執行層的分離

3.5 Flash 是決策層,不是媒體的執行層。它負責推理、規劃、呼叫工具、跨模態解析輸入,以及決定應該發生什麼。它不渲染像素或幀。在你的架構中把這兩個工作分開:讓 Gemini 3.5 處理路由、提示和品質判斷;讓專用的生成模型來做生產。把它們混在一起,就會讓你去問一個只能輸出文字的模型為什麼不能生成影片。

將 Gemini 3.5 與圖像/影片生成模型配對

清晰的模式:Gemini 3.5 接收摘要、參考圖像、音軌——無論輸入組合是什麼——推理應該生成什麼,然後輸出結構化指令或提示。下游的生成模型接收這些並生產資產。

常見問題

Gemini 3.5 Pro 何時可用?

根據 Google 的 I/O 公告,2026 年 6 月。目前尚未公布確切日期,仍在內部測試中。

Gemini 3.5 Flash 的 API 模型 ID 是什麼?

gemini-3.5-flash。這是穩定的生產 GA 識別符(自 2026 年 5 月 19 日起上線)。

Gemini 3.5 Pro 能生成圖像或影片嗎?

不太可能。整個 3.5 系列支援多模態輸入(文字、圖像、音訊、影片),但只輸出文字。圖像/影片/音訊生成屬於獨立的模型,如 Gemini Omni。

Gemini 3.5 Flash 比 3.1 Pro 便宜嗎?

以每 token 計算是的($1.50/$9.00 對比之前的 Pro 層),而且更快。但如果從舊版 Flash-Lite 模型遷移過來,輸出成本會大幅上漲(約 6 倍)。

我可以通過模型聚合平台存取 Gemini 3.5 嗎?

Flash 可以(已在 OpenRouter 等平台以標準定價提供)。Pro 尚未發布,因此聚合支援將取決於各平台的推出時程。

往期文章: