Gemini 3.5 Flash正式发布——Flash级模型在智能体基准测试中领先Pro级

Google 于 2026 年 5 月 19 日正式发布 Gemini 3.5 Flash，与 I/O 大会发布公告同日上线——覆盖 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用以及搜索中的 AI Mode。模型 ID 为 gemini-3.5-flash（无预览后缀），2026 年 5 月快照版本为 3.5-flash-05-2026，定价为输入 $1.50 / 输出 $9.00（每百万 token），缓存输入 $0.15/1M token。

最引人注目的是基准测试结果：一个 Flash 级别的模型，现已在大多数智能体评测套件上超越 Pro 级别的前沿模型。Claude Opus 4.7 和 GPT-5.5——两者均为 Pro 级别、价格都明显更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上均落后于 Flash。在代码方面，结果则更为复杂，且 Flash 在某一特定类别上仍处于下风。以下是完整情况、客观的权衡分析，以及部署建议。

发布内容一览

详情	值
模型 ID	`gemini-3.5-flash`
快照版本	`3.5-flash-05-2026`
输入定价	$1.50/1M token
输出定价	$9.00/1M token
缓存输入	$0.15/1M token
输入模态	文本 + 图像 + 音频 + 视频
输出模态	文本
上下文窗口	输入 1,048,576 / 输出 65,536
思考模式	动态思考默认开启
工具使用	函数调用、结构化输出、搜索即工具、代码执行
可用渠道	Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用、搜索 AI Mode
速度声明	输出 token 速率约为前沿同类产品的 4 倍

“思考默认开启”这一细节比规格表呈现的更为重要。这并非每次请求都需要设置的 thinking_budget 参数——Flash 的动态推理能力是内置的，模型会根据提示词自行决定思考深度。对于在生产环境中需要精确控制延迟预算的代码而言，这与 Sonnet 4.6 的扩展思考开关或 GPT-5.5 的 reasoning 参数是截然不同的部署形态。

智能体基准：Flash 对阵 Pro 级别

跨厂商数据最能体现 Flash 的定位价值。以下数据来源于Digital Applied 的智能体编程分析报告和 LLM Stats 的发布分析：

基准测试	Gemini 3.5 Flash	Claude Opus 4.7	GPT-5.5	胜者
MCP Atlas	83.6%	79.1%	75.3%	Flash (+4.5 / +8.3)
Toolathlon	56.5%	—	—	Flash
Finance Agent v2	57.9%	—	—	Flash
CharXiv Reasoning	84.2%	—	—	Flash
MMMU-Pro	83.6%	—	—	Flash
SWE-Bench Pro	—	64.3%	—	Opus 4.7
Terminal-Bench 2.1	76.2%	—	78.2%	GPT-5.5 (+2.0)
OSWorld-Verified	—	—	78.7%	GPT-5.5
Blueprint-Bench 2	—	—	36.2%	GPT-5.5
GDPval-AA	1656 Elo	—	1769 Elo	GPT-5.5 (+113)
ARC-AGI-2	72.1%	—	84.6%	GPT-5.5 (+12.5)

三点解读：

在智能体编排方面，Flash 现已成为首选默认模型。 MCP Atlas 衡量的是多步骤工具驱动型工作流——这正是大多数企业级智能体系统实际部署的场景。以 Flash 定价在此基准上超越 Opus 4.5 个百分点，意味着单位成本下的能力发生了实质性转变。Toolathlon 和 Finance Agent v2 进一步印证了这一规律：凡是以智能体方式运作的任务（规划、调用工具、整合结果、迭代执行），Flash 均处于领先地位。

在终端式编程方面，GPT-5.5 仍以微弱优势胜出。 Terminal-Bench 2.1 上 2 个百分点的差距并不决定性——但结合 GPT-5.5 在 GDPval-AA（113 Elo）和 OSWorld-Verified 上的优势，可以得出结论：如果你的工作流是”给模型一个终端和一个任务”，GPT-5.5 仍是更合适的选择。Flash 缩小了差距，但尚未完全追平。

在硬性抽象推理方面，Flash 存在明显短板。 ARC-AGI-2 是最清晰的信号——Flash 比 GPT-5.5 低 12.5 个百分点。这与我们昨天关于 Flash 在 Humanity’s Last Exam 和长上下文检索方面相较前代 Gemini 3.1 Pro 出现退步的报道一致。Flash 架构显然是以牺牲推理深度来换取速度和成本优势。预计 6 月发布的 Gemini 3.5 Pro 将是应对这一权衡的答案。

定价对比

模型	输入（$/1M）	输出（$/1M）	输出倍率	备注
Gemini 3.5 Flash	$1.50	$9.00	6.0×	缓存输入 $0.15
Claude Sonnet 4.6	$3.00	$15.00	5.0×	100 万 token 上下文统一价
Claude Opus 4.7	$5.00	$25.00	5.0×	Pro 级推理
GPT-5.5	$1.25	$10.00	8.0×	输入价格最低
Gemini 3.1 Pro（上一代）	$2.50	$15.00	6.0×	比 Flash 贵 40%

Flash 在输入和输出两个维度上均低于 Sonnet 4.6，同时在智能体基准测试上领先 Opus 4.7。这是开发者需要认清的定价逻辑：智能体编排的默认选择，输入成本降低了 50%，输出成本降低了 40%，且在同等层级相比上一代默认模型，基准测试表现明显更优。

$0.15/1M 的缓存输入定价，对任何 RAG 或重度使用记忆的工作流来说，都足以在成本计算上产生决定性影响。如果每次请求需要填入 50 万 token 的缓存上下文，Flash 的缓存层定价约为 Sonnet 4.6 标准输入价格的 10%。这不是利润率上的微小差异，而是完全不同的成本量级。

Flash 在生产环境中的适用场景

基于基准数据，以下是具体的部署建议：

适合使用 Flash 的场景：

MCP / 工具编排型智能体。 这是 Flash 真正领先的领域，且价格优势最为突出。
高吞吐量 API 工作流，单次成本比峰值智能水平更重要：数据转换、分类、结构化提取、批量处理。
多模态管道，输入图像/音频/视频并输出文本——Flash 原生支持全部四种输入模态。
缓存密集型工作流（长上下文 RAG、对话记忆、文档检索）——$0.15/1M 的缓存输入是前沿级别中最低的。

暂不适合使用 Flash 的场景：

硬性抽象推理——ARC-AGI-2 类型的问题。GPT-5.5 是更合适的选择。
128K+ 长上下文检索——Flash 相比上一代 Gemini 3.1 Pro 在此方面有所退步。等待 6 月的 3.5 Pro。
纯终端编程智能体——GPT-5.5 在 Terminal-Bench 上仍有 2 个百分点的优势，在多步骤编程工作流中会持续积累。
需要按请求控制思考预算的工作负载——Flash 的思考模式是内置的，不作为参数对外暴露。

今天真正改变的是什么

Flash 发布带来了三项实质性转变：

默认智能体模型不再是 Pro 级别。 “尽可能使用最强模型”这一建议，对智能体工作流而言已不再适用。对于 MCP 编排任务，Flash 在超越竞争对手 Pro 级模型的同时，价格还更低。
Gemini 文本系列在智能体能力上完成追赶。 发布前，主流观点认为”Gemini 在代码和智能体方面落后”。发布后，Flash 在大多数智能体评测套件上处于领先，在代码方面也具备竞争力。这一叙事需要更新。
推理能力的差距扩大了，而非缩小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是客观存在的。6 月的 Pro 版发布，将成为检验 Gemini 能否弥合这一特定差距的关键节点。

部署路径

当前最清晰的部署方案取决于你所使用的平台：

通过 Google 直接调用生产 API：经由 Vertex AI 或 AI Studio 使用 gemini-3.5-flash，两者暴露的是同一模型。
在 Antigravity 中（Google 的 IDE 式编程平台）：对大多数工作流而言，将默认模型从 gemini-3.1-pro 切换到 gemini-3.5-flash 是正确的做法。
在多厂商路由器中：将 gemini-3.5-flash 加入你的智能体编排策略。对于 MCP / 工具密集型路径，优先路由到 Flash；终端编程和 ARC 类推理任务回退到 GPT-5.5。
在 WaveSpeedAI 上：WaveSpeedAI LLM 端点为你提供兼容 OpenAI 的统一 API key，访问当前前沿文本模型。随着 Gemini 3.5 Flash 完成接入，你将能够在同一平台下对其与其他模型进行 A/B 测试。

六月值得关注的动态

未来四周内将有两件事得到明确：

Gemini 3.5 Pro 发布。 这将决定 Flash 在推理和长上下文方面的退步能否得到修复。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro，同时在 Terminal-Bench 上与 Flash 持平，则整个 Gemini 3.5 系列将成为新的默认选择。如果 Pro 只是在更高成本下修补了退步问题，则产品线将维持分化格局。
独立智能体基准复现。 Google 的 MCP Atlas / Toolathlon / Finance Agent 数据为第一方数据。真正值得关注的问题是：第三方智能体基准套件（LangChain Bench、MetaGPT eval 等）能否复现这一领先优势。未来两到三周内，留意相关复现研究的结果。

在此之前：Flash 已正式发布，智能体编排成本已经下降，本周大多数开发者面临的问题是：现在就将智能体路径从 Opus 4.7 迁移到 gemini-3.5-flash，还是等待 3.5 Pro？

来源：LLM Stats 关于 Gemini 3.5 Flash 的分析、Digital Applied 智能体编程对比、Seeking Alpha 关于智能体基准领先地位的报道、DataCamp Gemini 3.5 Flash 评测、Vertex AI 发布说明。

发布内容一览

智能体基准：Flash 对阵 Pro 级别

定价对比

Flash 在生产环境中的适用场景

适合使用 Flash 的场景：

暂不适合使用 Flash 的场景：

今天真正改变的是什么

部署路径

六月值得关注的动态

相关文章

Claude Fable 5 正式发布：SWE-Bench Pro 得分 80.3%，定价为 Opus 4.8 的 2 倍，6 月 22 日前免费使用

Gemini 3.5 Pro 下月发布——Flash 已经透露了什么

Gemini Omni Flash 正式发布：10秒多模态视频、SynthID水印，音频编辑功能暂未开放

Gemini 4.0 at Google I/O 2026: What's Confirmed, What's Anonymous-Sourced, What Builders Should Actually Watch For

Gemini Omni 演示视频泄露——谷歌全新视频模型究竟能做什么

谷歌神秘的'Omni'视频模型：Gemini界面泄露在I/O 2026前告诉我们什么