Gemini 3.5 Pro 与 Flash：开发者须知

说实话，I/O 2026 给了我一个意外——这次 Gemini 发布让我没想到。Flash 模型上线了，旗舰版没有，而且 Flash 模型已经超越了上一季度的旗舰版。这就是 Gemini 3.5 Pro 的全部故事——只不过 Pro 还没发布，所以现在外界说的很多话都是在猜测。本文将已确认的事实与”已宣布但未验证”的内容区分开来，并告诉你在等待期间该如何分配流量。

自 3.x 系列开始，我就一直在 Gemini 各档次之间调度生产流量，所以我会具体说明模型 ID 和价格。对于我不确定的地方——不确定的地方很多，因为 Pro 还没落地——我会明说。

Gemini 3.5 在 Google I/O 2026 上究竟发布了什么

Google 在 2026 年 5 月 19 日举行了 I/O 主题演讲。3.5 系列发生了两件事：一个模型正式上线，另一个只给了个日期，别的什么都没有。

3.5 Flash：5 月 19 日正式 GA，稳定 API ID 为 gemini-3.5-flash

Gemini 3.5 Flash 与主题演讲同日正式发布，全面可用。这不是预览版，不是实验性别名——该模型已稳定，可通过 gemini-3.5-flash 调用。对于曾经因迁移预览 ID 而踩坑的人来说，这一点很重要。根据 Google DeepMind 官方的 Gemini 3.5 Flash 模型页面，它支持对文本、音频、图像、代码和视频的理解。发布当天即在 Gemini 应用、搜索中的 AI Mode、Google AI Studio 的 Gemini API、Vertex AI 以及 Antigravity 2.0 上全面铺开。

规格参数供参考：输入窗口 1,048,576 个 token，最大输出 65,536 个 token，知识截止日期为 2026 年 1 月。动态思考默认开启——模型自行决定每个问题投入多少算力，而不是等你设定预算。

3.5 Pro：宣布将于六月发布，尚无 API ID

Pro 只在台上被提了一句。Sundar Pichai 表示它正在内部测试中，将于”下个月”发布，也就是 2026 年 6 月。9to5Google 的 I/O 2026 综述也是同样的表述：Pro 正在测试中，下月可用，没有更具体的信息。据说现场观众对这个延迟发出了叹息——这说明 Pro 才是大家真正期待的。

没有 API 模型 ID，没有定价，没有确切日期。如果你现在就在针对 Pro 开发，你实际上是在对着一份新闻稿开发。

原有档次层级被颠覆的地方

这一部分值得慢下来仔细想想。过去的思维模型很简单：难题用 Pro，高吞吐用 Flash。3.5 Flash 打破了这个逻辑。它在大多数基准测试上击败了 Gemini 3.1 Pro——也就是 2026 年 2 月的旗舰版——同时价格更低、速度更快。“轻量级”档次如今已超越了上一代的旗舰档次。

因此，Google 给每位开发者留下了一个令人不舒服的问题：当下一代 Flash 已经超过了你的旧版 Pro 时，付费买 Pro 模型还有意义吗？对于很多工作负载来说，现在诚实的答案是：没有。我稍后会回到什么时候它仍然有意义。

Gemini 3.5 Flash 在生产中能带来什么

规格是一回事，成本和实际用途是另一回事。

定价与延迟对比 3.1 Pro

Gemini 3.5 Flash 定价：标准档每 100 万输入 token 收费 $1.50，每 100 万输出 token 收费 $9.00。缓存输入为每 100 万 $0.15。Google 表示 3.5 Flash 的 token 输出速度约为同档次其他前沿模型的 4 倍。

有一点需要坦诚说明：如果你是从 Flash-Lite 迁移过来，这并不是一次便宜的升级。从 $0.25 / $1.50 的 Flash-Lite 费率跳到 $1.50 / $9.00，输出侧大约贵了 6 倍。你付的是智能体能力和多模态能力的提升，不是成本的降低。如果你的任务只是简单的抽取或路由，还是走更便宜的路径。（价格确实涨了，假装没涨是不诚实的。）

智能体与编程基准测试结果

Google 公布的 gemini 3.5 基准测试数据，如实引用：Terminal-Bench 2.1（编程）76.2%，GDPval-AA（智能体任务表现）1656 Elo，MCP Atlas（大规模工具使用可靠性）83.6%，CharXiv Reasoning（多模态理解）84.2%。

标准免责声明适用：具体任务结果因工作负载、提示策略和 token 组合而异。排行榜数字是起始假设，不是你的生产结果。在信任这些数字之前，先跑一跑自己的评测。

多模态理解（文本、图像、音频、视频输入）

Flash 接受文本、图像、音频、视频和 PDF 作为输入，你可以在一次请求中混合使用。官方的 Google AI Studio 中 Gemini 3.5 Flash 文档涵盖了迁移细节——包括 Google Search、URL 上下文、代码执行和自定义函数可以在同一次调用中运行。如果你之前用思维链提示技巧来强制推理，文档说放弃那种方式，改用 thinking_level。

它不能生成什么（图像/视频/音频输出限制）

这是我看到最多人搞错的地方，请读两遍。Gemini 3.5 Flash 接受多模态输入，输出文本。它不生成图像，不生成视频，不生成音频。多模态理解不等于多模态生成。

如果你需要生成视频，那是 Gemini Omni——Google 在同一场发布会上宣布的一个独立模型系列，不是 3.5 的变体。Computer Use 在 3.5 Flash 上也不支持；Google 表示这类任务继续使用 Gemini 3 Flash Preview。输出生成和浏览器控制任务要走其他路径。3.5 Flash 就是一个推理与理解引擎，仅此而已。

关于 Gemini 3.5 Pro 的已知与未知

大家一直在问 Gemini 3.5 Pro 会有什么能力。网上大多数回答都是推断。以下是区分。

已确认：六月发布窗口，多模态输入

Google 实际承诺的内容：Pro 将于 2026 年 6 月发布，目前在内部使用，在 3.5 系列中位于 Flash 之上，定位为深度推理档。MacRumors 的 I/O 2026 综述记录了相同信息——内部测试中，下月推出。已确认的就这些，很少。

未确认：定价、API ID、确切发布日期

开发者实际需要集成的一切都未经确认。没有定价，没有 API 模型 ID，没有超出”六月”的具体发布日期，没有专门针对 Pro 的已发布基准测试数字——你看到的任何将 3.5 Pro 与其他模型对比的内容都是推断，不是 Google 的数据。如果某篇文章把 3.5 Pro 的价格或 200 万 token 上下文引用为事实，把它当作一张自信脸上的猜测就好。

Google 分阶段发布的惯常模式（Ultra → Pro → 免费）

根据 3.x 系列的发布方式，以下是我的判断——标注为规律，不是承诺。Google 倾向于先落地更高档次和付费渠道，然后在数周内向下扩展。所以 Pro 很可能先出现在 Gemini 付费应用档次和 Vertex/AI Studio 付费 API 中，之后才会出现在免费配额里（如果能到免费档的话）。Pro 是否包含在免费档，目前真的未知。我不会围绕一个”也许”来规划免费档的 Pro 产品。

开发者该如何在 3.5 Flash 和 3.5 Pro 之间分配流量

你没法路由到一个还没发布的模型。所以这里真正的问题是：今天什么任务跑 Flash，什么任务等 Pro。

Flash 够用的场景（延迟敏感的智能体工作）

对于大多数智能体和编程工作，Flash 够用——这正是档次倒置的意义所在。如果你的工作负载是多步骤工具调用、编程循环、文档密集型助手或搜索增强型流水线，且你关注延迟，3.5 Flash 能胜任。4 倍输出速度在运行长智能体循环时最为明显，而不是单次调用。每个循环少一个慢步骤听起来不多，但规模一上去，累积效果很可观。

值得等 Pro 的场景（深度推理、长上下文）

当任务真正是推理瓶颈且延迟不敏感时，等 Pro：深度分析链、非常长的上下文且召回质量比速度更重要、答案错误的代价高于答案缓慢的问题。我在这里要谨慎——我描述的是 Pro 档次的预期定位，因为我还没能跑一个还未发布的模型。如果 Flash 在测试中已经达到你的准确率要求，等 Pro 只会让你多付钱，买不到别的。

跨档次的降级模式

我今天会这样构建：默认走 Flash，为抽取和路由任务保留一条更便宜的路径（Flash-Lite 或 2.5 Flash），并留一个配置槽位给 Pro，等它发布、你评测完了再拨过去。不要硬编码单一模型。3.5 这次发布刚刚证明了层级可以在一个季度内翻转——你的路由层应该把模型选择当作变量，而不是常量。

Gemini 3.5 在多模态生成技术栈中的位置

如果你在构建任何涉及图像或视频输出的东西，这一节能让你避免走错架构。

决策层与执行层的分离

3.5 Flash 是决策层，不是媒体执行层。它负责推理、规划、调用工具、跨模态解析输入，并决定应该发生什么。它不渲染像素，也不生成帧。在你的架构中保持这两项职责分离：让 Gemini 3.5 处理路由、提示和质量判断；让专用生成模型负责产出。把二者混为一谈，才会出现让一个文本输出模型去生成视频、然后疑惑为何不行的情况。

将 Gemini 3.5 与图像/视频生成模型配合使用

清晰的模式：Gemini 3.5 摄入简报、参考图像、音轨——不管输入是什么组合——推理出要生成什么，输出结构化指令或提示词。下游的生成模型接收这些内容，生成最终资产。

FAQ

Gemini 3.5 Pro 什么时候可用？

根据 Google 的 I/O 公告，2026 年 6 月。具体日期尚未公布，仍在内部测试中。

Gemini 3.5 Flash 的 API 模型 ID 是什么？

gemini-3.5-flash。这是稳定的生产 GA 标识符（自 2026 年 5 月 19 日起生效）。

Gemini 3.5 Pro 会生成图像或视频吗？

不太可能。整个 3.5 系列支持多模态输入（文本、图像、音频、视频），但只输出文本。图像/视频/音频生成属于独立模型，如 Gemini Omni。

Gemini 3.5 Flash 比 3.1 Pro 便宜吗？

按每 token 计算是的（$1.50/$9.00 对比之前的 Pro 档），速度也更快。但如果是从旧版 Flash-Lite 模型迁移，输出成本会显著上升（约 6 倍）。

我能通过模型聚合平台访问 Gemini 3.5 吗？

Flash 可以（已在 OpenRouter 等平台以标准价格提供）。Pro 尚未发布，聚合平台的支持取决于各平台的上线时间。

往期文章：