Gemini 3.5 Flash正式发布——Flash级模型在智能体基准测试中领先Pro级

Gemini 3.5 Flash在I/O 2026上正式发布,默认开启思考模式,定价$1.50/$9每百万token,在MCP Atlas及多数智能体测试套件中超越Claude Opus 4.7和GPT-5.5。本文解析Flash的领先项目、不足之处及部署方案。

By WaveSpeedAI 4 min read

Google 于 2026 年 5 月 19 日正式发布 Gemini 3.5 Flash,与 I/O 大会发布公告同日上线——覆盖 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用以及搜索中的 AI Mode。模型 ID 为 gemini-3.5-flash(无预览后缀),2026 年 5 月快照版本为 3.5-flash-05-2026,定价为输入 $1.50 / 输出 $9.00(每百万 token),缓存输入 $0.15/1M token。

最引人注目的是基准测试结果:一个 Flash 级别的模型,现已在大多数智能体评测套件上超越 Pro 级别的前沿模型。Claude Opus 4.7 和 GPT-5.5——两者均为 Pro 级别、价格都明显更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上均落后于 Flash。在代码方面,结果则更为复杂,且 Flash 在某一特定类别上仍处于下风。以下是完整情况、客观的权衡分析,以及部署建议。

发布内容一览

详情
模型 IDgemini-3.5-flash
快照版本3.5-flash-05-2026
输入定价$1.50/1M token
输出定价$9.00/1M token
缓存输入$0.15/1M token
输入模态文本 + 图像 + 音频 + 视频
输出模态文本
上下文窗口输入 1,048,576 / 输出 65,536
思考模式动态思考默认开启
工具使用函数调用、结构化输出、搜索即工具、代码执行
可用渠道Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用、搜索 AI Mode
速度声明输出 token 速率约为前沿同类产品的 4 倍

“思考默认开启”这一细节比规格表呈现的更为重要。这并非每次请求都需要设置的 thinking_budget 参数——Flash 的动态推理能力是内置的,模型会根据提示词自行决定思考深度。对于在生产环境中需要精确控制延迟预算的代码而言,这与 Sonnet 4.6 的扩展思考开关或 GPT-5.5 的 reasoning 参数是截然不同的部署形态。

智能体基准:Flash 对阵 Pro 级别

跨厂商数据最能体现 Flash 的定位价值。以下数据来源于Digital Applied 的智能体编程分析报告LLM Stats 的发布分析

基准测试Gemini 3.5 FlashClaude Opus 4.7GPT-5.5胜者
MCP Atlas83.6%79.1%75.3%Flash (+4.5 / +8.3)
Toolathlon56.5%Flash
Finance Agent v257.9%Flash
CharXiv Reasoning84.2%Flash
MMMU-Pro83.6%Flash
SWE-Bench Pro64.3%Opus 4.7
Terminal-Bench 2.176.2%78.2%GPT-5.5 (+2.0)
OSWorld-Verified78.7%GPT-5.5
Blueprint-Bench 236.2%GPT-5.5
GDPval-AA1656 Elo1769 EloGPT-5.5 (+113)
ARC-AGI-272.1%84.6%GPT-5.5 (+12.5)

三点解读:

在智能体编排方面,Flash 现已成为首选默认模型。 MCP Atlas 衡量的是多步骤工具驱动型工作流——这正是大多数企业级智能体系统实际部署的场景。以 Flash 定价在此基准上超越 Opus 4.5 个百分点,意味着单位成本下的能力发生了实质性转变。Toolathlon 和 Finance Agent v2 进一步印证了这一规律:凡是以智能体方式运作的任务(规划、调用工具、整合结果、迭代执行),Flash 均处于领先地位。

在终端式编程方面,GPT-5.5 仍以微弱优势胜出。 Terminal-Bench 2.1 上 2 个百分点的差距并不决定性——但结合 GPT-5.5 在 GDPval-AA(113 Elo)和 OSWorld-Verified 上的优势,可以得出结论:如果你的工作流是”给模型一个终端和一个任务”,GPT-5.5 仍是更合适的选择。Flash 缩小了差距,但尚未完全追平。

在硬性抽象推理方面,Flash 存在明显短板。 ARC-AGI-2 是最清晰的信号——Flash 比 GPT-5.5 低 12.5 个百分点。这与我们昨天关于 Flash 在 Humanity’s Last Exam 和长上下文检索方面相较前代 Gemini 3.1 Pro 出现退步的报道一致。Flash 架构显然是以牺牲推理深度来换取速度和成本优势。预计 6 月发布的 Gemini 3.5 Pro 将是应对这一权衡的答案。

定价对比

模型输入($/1M)输出($/1M)输出倍率备注
Gemini 3.5 Flash$1.50$9.006.0×缓存输入 $0.15
Claude Sonnet 4.6$3.00$15.005.0×100 万 token 上下文统一价
Claude Opus 4.7$5.00$25.005.0×Pro 级推理
GPT-5.5$1.25$10.008.0×输入价格最低
Gemini 3.1 Pro(上一代)$2.50$15.006.0×比 Flash 贵 40%

Flash 在输入和输出两个维度上均低于 Sonnet 4.6,同时在智能体基准测试上领先 Opus 4.7。这是开发者需要认清的定价逻辑:智能体编排的默认选择,输入成本降低了 50%,输出成本降低了 40%,且在同等层级相比上一代默认模型,基准测试表现明显更优。

$0.15/1M 的缓存输入定价,对任何 RAG 或重度使用记忆的工作流来说,都足以在成本计算上产生决定性影响。如果每次请求需要填入 50 万 token 的缓存上下文,Flash 的缓存层定价约为 Sonnet 4.6 标准输入价格的 10%。这不是利润率上的微小差异,而是完全不同的成本量级。

Flash 在生产环境中的适用场景

基于基准数据,以下是具体的部署建议:

适合使用 Flash 的场景:

  • MCP / 工具编排型智能体。 这是 Flash 真正领先的领域,且价格优势最为突出。
  • 高吞吐量 API 工作流,单次成本比峰值智能水平更重要:数据转换、分类、结构化提取、批量处理。
  • 多模态管道,输入图像/音频/视频并输出文本——Flash 原生支持全部四种输入模态。
  • 缓存密集型工作流(长上下文 RAG、对话记忆、文档检索)——$0.15/1M 的缓存输入是前沿级别中最低的。

暂不适合使用 Flash 的场景:

  • 硬性抽象推理——ARC-AGI-2 类型的问题。GPT-5.5 是更合适的选择。
  • 128K+ 长上下文检索——Flash 相比上一代 Gemini 3.1 Pro 在此方面有所退步。等待 6 月的 3.5 Pro。
  • 纯终端编程智能体——GPT-5.5 在 Terminal-Bench 上仍有 2 个百分点的优势,在多步骤编程工作流中会持续积累。
  • 需要按请求控制思考预算的工作负载——Flash 的思考模式是内置的,不作为参数对外暴露。

今天真正改变的是什么

Flash 发布带来了三项实质性转变:

  1. 默认智能体模型不再是 Pro 级别。 “尽可能使用最强模型”这一建议,对智能体工作流而言已不再适用。对于 MCP 编排任务,Flash 在超越竞争对手 Pro 级模型的同时,价格还更低。
  2. Gemini 文本系列在智能体能力上完成追赶。 发布前,主流观点认为”Gemini 在代码和智能体方面落后”。发布后,Flash 在大多数智能体评测套件上处于领先,在代码方面也具备竞争力。这一叙事需要更新。
  3. 推理能力的差距扩大了,而非缩小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是客观存在的。6 月的 Pro 版发布,将成为检验 Gemini 能否弥合这一特定差距的关键节点。

部署路径

当前最清晰的部署方案取决于你所使用的平台:

  • 通过 Google 直接调用生产 API:经由 Vertex AI 或 AI Studio 使用 gemini-3.5-flash,两者暴露的是同一模型。
  • 在 Antigravity 中(Google 的 IDE 式编程平台):对大多数工作流而言,将默认模型从 gemini-3.1-pro 切换到 gemini-3.5-flash 是正确的做法。
  • 在多厂商路由器中:将 gemini-3.5-flash 加入你的智能体编排策略。对于 MCP / 工具密集型路径,优先路由到 Flash;终端编程和 ARC 类推理任务回退到 GPT-5.5。
  • 在 WaveSpeedAI 上WaveSpeedAI LLM 端点 为你提供兼容 OpenAI 的统一 API key,访问当前前沿文本模型。随着 Gemini 3.5 Flash 完成接入,你将能够在同一平台下对其与其他模型进行 A/B 测试。

六月值得关注的动态

未来四周内将有两件事得到明确:

  1. Gemini 3.5 Pro 发布。 这将决定 Flash 在推理和长上下文方面的退步能否得到修复。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,同时在 Terminal-Bench 上与 Flash 持平,则整个 Gemini 3.5 系列将成为新的默认选择。如果 Pro 只是在更高成本下修补了退步问题,则产品线将维持分化格局。
  2. 独立智能体基准复现。 Google 的 MCP Atlas / Toolathlon / Finance Agent 数据为第一方数据。真正值得关注的问题是:第三方智能体基准套件(LangChain Bench、MetaGPT eval 等)能否复现这一领先优势。未来两到三周内,留意相关复现研究的结果。

在此之前:Flash 已正式发布,智能体编排成本已经下降,本周大多数开发者面临的问题是:现在就将智能体路径从 Opus 4.7 迁移到 gemini-3.5-flash,还是等待 3.5 Pro?

来源:LLM Stats 关于 Gemini 3.5 Flash 的分析Digital Applied 智能体编程对比Seeking Alpha 关于智能体基准领先地位的报道DataCamp Gemini 3.5 Flash 评测Vertex AI 发布说明