Gemini 3.5 Pro 下月发布——Flash 已经透露了什么
谷歌在 I/O 2026 上发布了 Gemini 3.5 Flash,并将 Pro 版本推迟至六月。Flash 已在编程和智能体基准测试中超越 Gemini 3.1 Pro,但在高难度推理上出现退步——这正是 Pro 需要弥补的差距。以下是已知信息、未知信息以及如何规划。
I/O 2026 主题演讲结束后的第二天,演讲前的疑问——Google 究竟会发布”Gemini 3.5”还是”Gemini 4.0”——终于有了答案。是 3.5。但更值得关注的是 Google 实际发布了什么、又保留了什么:Gemini 3.5 Flash 于 5 月 19 日正式全面上线;Gemini 3.5 Pro”下个月推出。” Sundar Pichai 在台上的原话是:“再给我们一个月时间。”
据报道,现场观众发出了叹气声。这个反应情有可原,但这段空档期背后其实比表面上更有意思。Flash 在对开发者最重要的基准测试上已经超越了 Gemini 3.1 Pro——同时在一组特定的推理和长上下文基准测试上出现了退步。Pro 推迟一个月发布,几乎可以肯定是 Google 对这一退步的回应。以下是从 Flash 发布情况中可以推断出的 Pro 将会是什么样子。
已确认:Google 对 3.5 Pro 的表态
Google 在台上关于 Pro 的说明极为简略。经过确认的全部信息如下:
| 细节 | 来源 | 状态 |
|---|---|---|
| ”下个月”(2026 年 6 月)发布 | Pichai 主题演讲 | 已确认 |
| 目前处于内部测试阶段 | Pichai 主题演讲 | 已确认 |
| 将与 Flash 共享编程/智能体方向 | I/O 传递信息 | 已确认 |
| 具体基准测试数据 | — | 未披露 |
| 定价 | — | 未披露 |
| 上下文窗口 | — | 未披露 |
| 模型 ID | — | 未披露 |
仅此而已。没有基准测试,没有定价,没有模型卡。关于 Pro 的发布,只有一句意向声明和一个时间表。
Flash 数据对 Pro 的启示
这才是真正有价值的地方。Gemini 3.5 Flash 在同一天发布并附带完整基准测试数据,与上一代 Gemini 3.1 Pro 的对比清晰揭示了新一代模型的强项与弱项。
Flash 超越 Gemini 3.1 Pro 的领域
| 基准测试 | 3.5 Flash | 3.1 Pro | 差值 |
|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9 |
| MCP Atlas | 83.6% | 78.2% | +5.4 |
| Finance Agent v2 | 57.9% | 43.0% | +14.9 |
| GDPval-AA | 1656 Elo | 1314 Elo | +342 |
这些全都是编程和智能体基准测试——正是 Claude 一直作为开发者首选的类别。Flash 在这些指标上与 Claude 的差距,已比上一代 Pro 更小。 这是一个实质性的产品变化,而非边际改进。
Flash 相对 Gemini 3.1 Pro 出现退步的领域
| 基准测试 | 3.5 Flash | 3.1 Pro | 差值 |
|---|---|---|---|
| Humanity’s Last Exam | 40.2% | 44.4% | −4.2 |
| ARC-AGI-2 | 72.1% | 77.1% | −5.0 |
| 长上下文(128K) | 77.3% | 84.9% | −7.6 |
这三项恰恰是你最期望 Pro 档位来体现差异化的基准测试。高难度推理、抽象模式匹配、长上下文检索——前两项考验深度,第三项考验大规模召回能力。Flash 在每一项上下降 4-8 个百分点,表明 Flash 架构做出了有意为之的权衡,以换取速度和成本数字上的优势。
3.5 Pro 在六月的发布几乎可以肯定是 Google 对这份清单的正面回应。 Pro 存在的意义,就是补回 Flash 在推理和长上下文方面让出的优势。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,同时在 Terminal-Bench 上与 Flash 持平,那它就是最强的生产级前沿模型。如果它只是修复了退步但牺牲了智能体速度,那定位就会完全不同。
Flash 定价对 Pro 的暗示
Flash 的标准档定价为每百万 token 输入 $1.50 / 输出 $9.00——在输入和输出两个维度上均比 Gemini 3.1 Pro 便宜 40%。缓存输入为 $0.15/百万 token,这是检索密集型工作负载的核心数字。
对 Pro 定价的直接推断:
- 如果 Pro 以 Gemini 3.1 Pro 定价或更高发布(约 $2.50/$15/百万 token 或以上),说明 Pro 定位为高端推理档,而非 Flash 的替代品。
- 如果 Pro 定价低于 3.1 Pro 但高于 Flash,则将其定位为默认的”更智能 Flash”——相同的产品面,更高的能力,适度溢价。
- 如果 Pro 与 Flash 定价相同,那将会比较异常,会让 Flash 陷入与 Seedance 2.0 Fast 当前类似的尴尬处境(参见我们的 Seedance 2.1 / Mini 预览了解类似的档位冲突问题)。
第一种选项最有可能。Google 正在做出一个结构性押注:客户愿意为推理档位的分层买单。观众的叹气声表明市场认为 Flash 已经足够好、Pro 并无必要;在开发者跑完六月模型卡的自有评测之前,我们无从知晓市场是否正确。
六月值得关注的其他事项
当 Pro 模型卡发布时,以下四个具体细节至关重要:
- Pro 在编程方面是否能与 Flash 持平(Terminal-Bench、MCP Atlas)? 如果能,Pro 就是严格意义上的超集。如果不能,你将需要运行两个端点——Flash 用于智能体,Pro 用于推理——集成成本随之上升。
- 长上下文数据。 如果 Pro 在 128K 上恢复了 Gemini 3.1 Pro 的领先优势,并且扩展到与 Flash 相同的 100 万 token 上下文窗口,这将是最具生产意义的信号。RAG 密集型工作负载应专门根据这个数字来规划迁移计划。
- 多模态的说明。 Flash 发布时与 3.0 系列具有相同的图像/视频理解能力。如果 Pro 搭载了 Gemini Omni 视频生成集成(截至 5 月 20 日仍为传言),那将是 Google 目前尚未完整讲述的统一故事。
- Pro 是否是思维模型。 Google 近期的推理模型均以可选的”思考”模式发布,以延迟换取准确性。如果 3.5 Pro 默认开启思考或提供每请求级别的控制,这将实质性影响你在生产中如何使用它。
本月可以做的事
在 Pro 处于内部测试期间,有三个具体行动:
- 本周就对 3.5 Flash 运行你的评测。 它已在 Gemini API、Google AI Studio、Vertex、Antigravity 和 Gemini 应用上线,模型 ID 为
gemini-3.5-flash。如果 Flash 已经覆盖你的工作负载,你可能根本不需要 Pro。 - 对于长上下文或高难度推理工作负载,目前继续使用 Gemini 3.1 Pro。 不要因为 Flash 是最新模型就迁移到它——128K 上 7.6 个百分点的退步是真实存在的。等待 Pro。
- 现在就设计好六月的 A/B 测试方案。 在 Pro 发布之前,先定义好 Flash → Pro 的对比评测。发布当天就切换的诱惑是真实的;而你已经在 Flash 和 3.1 Pro 上跑过的保留基准测试,其价值更为真实。
在 Pro 发布之前
对于 LLM 端的工作负载,WaveSpeedAI LLM 端点通过单一 API key 提供与 OpenAI 兼容的当前前沿文本模型访问。当 Gemini 3.5 Pro 在六月上线后,预计将在数日内通过同一端点进行对比——与 Flash 及其他前沿文本模型并列。
来源:MacRumors I/O 2026 汇总、LLM Stats 关于 Gemini 3.5 Flash 的分析、Felloai Gemini 3.5 评测、BusinessToday 关于 Gemini Spark 和 3.5 的报道。
