Gemini 3.5 Pro 下月发布——Flash 已经透露了什么

谷歌在 I/O 2026 上发布了 Gemini 3.5 Flash,并将 Pro 版本推迟至六月。Flash 已在编程和智能体基准测试中超越 Gemini 3.1 Pro,但在高难度推理上出现退步——这正是 Pro 需要弥补的差距。以下是已知信息、未知信息以及如何规划。

By WaveSpeedAI 3 min read

I/O 2026 主题演讲结束后的第二天,演讲前的疑问——Google 究竟会发布”Gemini 3.5”还是”Gemini 4.0”——终于有了答案。是 3.5。但更值得关注的是 Google 实际发布了什么、又保留了什么:Gemini 3.5 Flash 于 5 月 19 日正式全面上线;Gemini 3.5 Pro”下个月推出。” Sundar Pichai 在台上的原话是:“再给我们一个月时间。”

据报道,现场观众发出了叹气声。这个反应情有可原,但这段空档期背后其实比表面上更有意思。Flash 在对开发者最重要的基准测试上已经超越了 Gemini 3.1 Pro——同时在一组特定的推理和长上下文基准测试上出现了退步。Pro 推迟一个月发布,几乎可以肯定是 Google 对这一退步的回应。以下是从 Flash 发布情况中可以推断出的 Pro 将会是什么样子。

已确认:Google 对 3.5 Pro 的表态

Google 在台上关于 Pro 的说明极为简略。经过确认的全部信息如下:

细节来源状态
”下个月”(2026 年 6 月)发布Pichai 主题演讲已确认
目前处于内部测试阶段Pichai 主题演讲已确认
将与 Flash 共享编程/智能体方向I/O 传递信息已确认
具体基准测试数据未披露
定价未披露
上下文窗口未披露
模型 ID未披露

仅此而已。没有基准测试,没有定价,没有模型卡。关于 Pro 的发布,只有一句意向声明和一个时间表。

Flash 数据对 Pro 的启示

这才是真正有价值的地方。Gemini 3.5 Flash 在同一天发布并附带完整基准测试数据,与上一代 Gemini 3.1 Pro 的对比清晰揭示了新一代模型的强项与弱项。

Flash 超越 Gemini 3.1 Pro 的领域

基准测试3.5 Flash3.1 Pro差值
Terminal-Bench 2.176.2%70.3%+5.9
MCP Atlas83.6%78.2%+5.4
Finance Agent v257.9%43.0%+14.9
GDPval-AA1656 Elo1314 Elo+342

这些全都是编程和智能体基准测试——正是 Claude 一直作为开发者首选的类别。Flash 在这些指标上与 Claude 的差距,已比上一代 Pro 更小。 这是一个实质性的产品变化,而非边际改进。

Flash 相对 Gemini 3.1 Pro 出现退步的领域

基准测试3.5 Flash3.1 Pro差值
Humanity’s Last Exam40.2%44.4%−4.2
ARC-AGI-272.1%77.1%−5.0
长上下文(128K)77.3%84.9%−7.6

这三项恰恰是你最期望 Pro 档位来体现差异化的基准测试。高难度推理、抽象模式匹配、长上下文检索——前两项考验深度,第三项考验大规模召回能力。Flash 在每一项上下降 4-8 个百分点,表明 Flash 架构做出了有意为之的权衡,以换取速度和成本数字上的优势。

3.5 Pro 在六月的发布几乎可以肯定是 Google 对这份清单的正面回应。 Pro 存在的意义,就是补回 Flash 在推理和长上下文方面让出的优势。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,同时在 Terminal-Bench 上与 Flash 持平,那它就是最强的生产级前沿模型。如果它只是修复了退步但牺牲了智能体速度,那定位就会完全不同。

Flash 定价对 Pro 的暗示

Flash 的标准档定价为每百万 token 输入 $1.50 / 输出 $9.00——在输入和输出两个维度上均比 Gemini 3.1 Pro 便宜 40%。缓存输入为 $0.15/百万 token,这是检索密集型工作负载的核心数字。

对 Pro 定价的直接推断:

  • 如果 Pro 以 Gemini 3.1 Pro 定价或更高发布(约 $2.50/$15/百万 token 或以上),说明 Pro 定位为高端推理档,而非 Flash 的替代品。
  • 如果 Pro 定价低于 3.1 Pro 但高于 Flash,则将其定位为默认的”更智能 Flash”——相同的产品面,更高的能力,适度溢价。
  • 如果 Pro 与 Flash 定价相同,那将会比较异常,会让 Flash 陷入与 Seedance 2.0 Fast 当前类似的尴尬处境(参见我们的 Seedance 2.1 / Mini 预览了解类似的档位冲突问题)。

第一种选项最有可能。Google 正在做出一个结构性押注:客户愿意为推理档位的分层买单。观众的叹气声表明市场认为 Flash 已经足够好、Pro 并无必要;在开发者跑完六月模型卡的自有评测之前,我们无从知晓市场是否正确。

六月值得关注的其他事项

当 Pro 模型卡发布时,以下四个具体细节至关重要:

  1. Pro 在编程方面是否能与 Flash 持平(Terminal-Bench、MCP Atlas)? 如果能,Pro 就是严格意义上的超集。如果不能,你将需要运行两个端点——Flash 用于智能体,Pro 用于推理——集成成本随之上升。
  2. 长上下文数据。 如果 Pro 在 128K 上恢复了 Gemini 3.1 Pro 的领先优势,并且扩展到与 Flash 相同的 100 万 token 上下文窗口,这将是最具生产意义的信号。RAG 密集型工作负载应专门根据这个数字来规划迁移计划。
  3. 多模态的说明。 Flash 发布时与 3.0 系列具有相同的图像/视频理解能力。如果 Pro 搭载了 Gemini Omni 视频生成集成(截至 5 月 20 日仍为传言),那将是 Google 目前尚未完整讲述的统一故事。
  4. Pro 是否是思维模型。 Google 近期的推理模型均以可选的”思考”模式发布,以延迟换取准确性。如果 3.5 Pro 默认开启思考或提供每请求级别的控制,这将实质性影响你在生产中如何使用它。

本月可以做的事

在 Pro 处于内部测试期间,有三个具体行动:

  1. 本周就对 3.5 Flash 运行你的评测。 它已在 Gemini API、Google AI Studio、Vertex、Antigravity 和 Gemini 应用上线,模型 ID 为 gemini-3.5-flash。如果 Flash 已经覆盖你的工作负载,你可能根本不需要 Pro。
  2. 对于长上下文或高难度推理工作负载,目前继续使用 Gemini 3.1 Pro。 不要因为 Flash 是最新模型就迁移到它——128K 上 7.6 个百分点的退步是真实存在的。等待 Pro。
  3. 现在就设计好六月的 A/B 测试方案。 在 Pro 发布之前,先定义好 Flash → Pro 的对比评测。发布当天就切换的诱惑是真实的;而你已经在 Flash 和 3.1 Pro 上跑过的保留基准测试,其价值更为真实。

在 Pro 发布之前

对于 LLM 端的工作负载,WaveSpeedAI LLM 端点通过单一 API key 提供与 OpenAI 兼容的当前前沿文本模型访问。当 Gemini 3.5 Pro 在六月上线后,预计将在数日内通过同一端点进行对比——与 Flash 及其他前沿文本模型并列。

来源:MacRumors I/O 2026 汇总LLM Stats 关于 Gemini 3.5 Flash 的分析Felloai Gemini 3.5 评测BusinessToday 关于 Gemini Spark 和 3.5 的报道