Gemini 3.5 Pro 下月发布——Flash 已经透露了什么

I/O 2026 主题演讲结束后的第二天，演讲前的疑问——Google 究竟会发布”Gemini 3.5”还是”Gemini 4.0”——终于有了答案。是 3.5。但更值得关注的是 Google 实际发布了什么、又保留了什么：Gemini 3.5 Flash 于 5 月 19 日正式全面上线；Gemini 3.5 Pro”下个月推出。” Sundar Pichai 在台上的原话是：“再给我们一个月时间。”

据报道，现场观众发出了叹气声。这个反应情有可原，但这段空档期背后其实比表面上更有意思。Flash 在对开发者最重要的基准测试上已经超越了 Gemini 3.1 Pro——同时在一组特定的推理和长上下文基准测试上出现了退步。Pro 推迟一个月发布，几乎可以肯定是 Google 对这一退步的回应。以下是从 Flash 发布情况中可以推断出的 Pro 将会是什么样子。

已确认：Google 对 3.5 Pro 的表态

Google 在台上关于 Pro 的说明极为简略。经过确认的全部信息如下：

细节	来源	状态
”下个月”（2026 年 6 月）发布	Pichai 主题演讲	已确认
目前处于内部测试阶段	Pichai 主题演讲	已确认
将与 Flash 共享编程/智能体方向	I/O 传递信息	已确认
具体基准测试数据	—	未披露
定价	—	未披露
上下文窗口	—	未披露
模型 ID	—	未披露

仅此而已。没有基准测试，没有定价，没有模型卡。关于 Pro 的发布，只有一句意向声明和一个时间表。

Flash 数据对 Pro 的启示

这才是真正有价值的地方。Gemini 3.5 Flash 在同一天发布并附带完整基准测试数据，与上一代 Gemini 3.1 Pro 的对比清晰揭示了新一代模型的强项与弱项。

Flash 超越 Gemini 3.1 Pro 的领域

基准测试	3.5 Flash	3.1 Pro	差值
Terminal-Bench 2.1	76.2%	70.3%	+5.9
MCP Atlas	83.6%	78.2%	+5.4
Finance Agent v2	57.9%	43.0%	+14.9
GDPval-AA	1656 Elo	1314 Elo	+342

这些全都是编程和智能体基准测试——正是 Claude 一直作为开发者首选的类别。Flash 在这些指标上与 Claude 的差距，已比上一代 Pro 更小。 这是一个实质性的产品变化，而非边际改进。

Flash 相对 Gemini 3.1 Pro 出现退步的领域

基准测试	3.5 Flash	3.1 Pro	差值
Humanity’s Last Exam	40.2%	44.4%	−4.2
ARC-AGI-2	72.1%	77.1%	−5.0
长上下文（128K）	77.3%	84.9%	−7.6

这三项恰恰是你最期望 Pro 档位来体现差异化的基准测试。高难度推理、抽象模式匹配、长上下文检索——前两项考验深度，第三项考验大规模召回能力。Flash 在每一项上下降 4-8 个百分点，表明 Flash 架构做出了有意为之的权衡，以换取速度和成本数字上的优势。

3.5 Pro 在六月的发布几乎可以肯定是 Google 对这份清单的正面回应。 Pro 存在的意义，就是补回 Flash 在推理和长上下文方面让出的优势。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro，同时在 Terminal-Bench 上与 Flash 持平，那它就是最强的生产级前沿模型。如果它只是修复了退步但牺牲了智能体速度，那定位就会完全不同。

Flash 定价对 Pro 的暗示

Flash 的标准档定价为每百万 token 输入 $1.50 / 输出 $9.00——在输入和输出两个维度上均比 Gemini 3.1 Pro 便宜 40%。缓存输入为 $0.15/百万 token，这是检索密集型工作负载的核心数字。

对 Pro 定价的直接推断：

如果 Pro 以 Gemini 3.1 Pro 定价或更高发布（约 $2.50/$15/百万 token 或以上），说明 Pro 定位为高端推理档，而非 Flash 的替代品。
如果 Pro 定价低于 3.1 Pro 但高于 Flash，则将其定位为默认的”更智能 Flash”——相同的产品面，更高的能力，适度溢价。
如果 Pro 与 Flash 定价相同，那将会比较异常，会让 Flash 陷入与 Seedance 2.0 Fast 当前类似的尴尬处境（参见我们的 Seedance 2.1 / Mini 预览了解类似的档位冲突问题）。

第一种选项最有可能。Google 正在做出一个结构性押注：客户愿意为推理档位的分层买单。观众的叹气声表明市场认为 Flash 已经足够好、Pro 并无必要；在开发者跑完六月模型卡的自有评测之前，我们无从知晓市场是否正确。

六月值得关注的其他事项

当 Pro 模型卡发布时，以下四个具体细节至关重要：

Pro 在编程方面是否能与 Flash 持平（Terminal-Bench、MCP Atlas）？ 如果能，Pro 就是严格意义上的超集。如果不能，你将需要运行两个端点——Flash 用于智能体，Pro 用于推理——集成成本随之上升。
长上下文数据。 如果 Pro 在 128K 上恢复了 Gemini 3.1 Pro 的领先优势，并且扩展到与 Flash 相同的 100 万 token 上下文窗口，这将是最具生产意义的信号。RAG 密集型工作负载应专门根据这个数字来规划迁移计划。
多模态的说明。 Flash 发布时与 3.0 系列具有相同的图像/视频理解能力。如果 Pro 搭载了 Gemini Omni 视频生成集成（截至 5 月 20 日仍为传言），那将是 Google 目前尚未完整讲述的统一故事。
Pro 是否是思维模型。 Google 近期的推理模型均以可选的”思考”模式发布，以延迟换取准确性。如果 3.5 Pro 默认开启思考或提供每请求级别的控制，这将实质性影响你在生产中如何使用它。

本月可以做的事

在 Pro 处于内部测试期间，有三个具体行动：

本周就对 3.5 Flash 运行你的评测。 它已在 Gemini API、Google AI Studio、Vertex、Antigravity 和 Gemini 应用上线，模型 ID 为 gemini-3.5-flash。如果 Flash 已经覆盖你的工作负载，你可能根本不需要 Pro。
对于长上下文或高难度推理工作负载，目前继续使用 Gemini 3.1 Pro。 不要因为 Flash 是最新模型就迁移到它——128K 上 7.6 个百分点的退步是真实存在的。等待 Pro。
现在就设计好六月的 A/B 测试方案。 在 Pro 发布之前，先定义好 Flash → Pro 的对比评测。发布当天就切换的诱惑是真实的；而你已经在 Flash 和 3.1 Pro 上跑过的保留基准测试，其价值更为真实。

在 Pro 发布之前

对于 LLM 端的工作负载，WaveSpeedAI LLM 端点通过单一 API key 提供与 OpenAI 兼容的当前前沿文本模型访问。当 Gemini 3.5 Pro 在六月上线后，预计将在数日内通过同一端点进行对比——与 Flash 及其他前沿文本模型并列。

来源：MacRumors I/O 2026 汇总、LLM Stats 关于 Gemini 3.5 Flash 的分析、Felloai Gemini 3.5 评测、BusinessToday 关于 Gemini Spark 和 3.5 的报道。

已确认：Google 对 3.5 Pro 的表态

Flash 数据对 Pro 的启示

Flash 超越 Gemini 3.1 Pro 的领域

Flash 相对 Gemini 3.1 Pro 出现退步的领域

Flash 定价对 Pro 的暗示

六月值得关注的其他事项

本月可以做的事

在 Pro 发布之前

相关文章

Claude Fable 5 正式发布：SWE-Bench Pro 得分 80.3%，定价为 Opus 4.8 的 2 倍，6 月 22 日前免费使用

Gemini 3.5 Flash正式发布——Flash级模型在智能体基准测试中领先Pro级

Gemini Omni Flash 正式发布：10秒多模态视频、SynthID水印，音频编辑功能暂未开放

Gemini 4.0 at Google I/O 2026: What's Confirmed, What's Anonymous-Sourced, What Builders Should Actually Watch For

Gemini Omni 演示视频泄露——谷歌全新视频模型究竟能做什么

谷歌神秘的'Omni'视频模型：Gemini界面泄露在I/O 2026前告诉我们什么