Gemini 3.5 Flash正式发布——Flash级模型在智能体基准测试中领先Pro级
Gemini 3.5 Flash在I/O 2026上正式发布,默认开启思考模式,定价$1.50/$9每百万token,在MCP Atlas及多数智能体测试套件中超越Claude Opus 4.7和GPT-5.5。本文解析Flash的领先项目、不足之处及部署方案。
Google 于 2026 年 5 月 19 日正式发布 Gemini 3.5 Flash,与 I/O 大会发布公告同日上线——覆盖 Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用以及搜索中的 AI Mode。模型 ID 为 gemini-3.5-flash(无预览后缀),2026 年 5 月快照版本为 3.5-flash-05-2026,定价为输入 $1.50 / 输出 $9.00(每百万 token),缓存输入 $0.15/1M token。
最引人注目的是基准测试结果:一个 Flash 级别的模型,现已在大多数智能体评测套件上超越 Pro 级别的前沿模型。Claude Opus 4.7 和 GPT-5.5——两者均为 Pro 级别、价格都明显更高——在 MCP Atlas、Toolathlon 和 Finance Agent v2 上均落后于 Flash。在代码方面,结果则更为复杂,且 Flash 在某一特定类别上仍处于下风。以下是完整情况、客观的权衡分析,以及部署建议。
发布内容一览
| 详情 | 值 |
|---|---|
| 模型 ID | gemini-3.5-flash |
| 快照版本 | 3.5-flash-05-2026 |
| 输入定价 | $1.50/1M token |
| 输出定价 | $9.00/1M token |
| 缓存输入 | $0.15/1M token |
| 输入模态 | 文本 + 图像 + 音频 + 视频 |
| 输出模态 | 文本 |
| 上下文窗口 | 输入 1,048,576 / 输出 65,536 |
| 思考模式 | 动态思考默认开启 |
| 工具使用 | 函数调用、结构化输出、搜索即工具、代码执行 |
| 可用渠道 | Gemini API、AI Studio、Antigravity、Vertex AI、Gemini 应用、搜索 AI Mode |
| 速度声明 | 输出 token 速率约为前沿同类产品的 4 倍 |
“思考默认开启”这一细节比规格表呈现的更为重要。这并非每次请求都需要设置的 thinking_budget 参数——Flash 的动态推理能力是内置的,模型会根据提示词自行决定思考深度。对于在生产环境中需要精确控制延迟预算的代码而言,这与 Sonnet 4.6 的扩展思考开关或 GPT-5.5 的 reasoning 参数是截然不同的部署形态。
智能体基准:Flash 对阵 Pro 级别
跨厂商数据最能体现 Flash 的定位价值。以下数据来源于Digital Applied 的智能体编程分析报告和 LLM Stats 的发布分析:
| 基准测试 | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | 胜者 |
|---|---|---|---|---|
| MCP Atlas | 83.6% | 79.1% | 75.3% | Flash (+4.5 / +8.3) |
| Toolathlon | 56.5% | — | — | Flash |
| Finance Agent v2 | 57.9% | — | — | Flash |
| CharXiv Reasoning | 84.2% | — | — | Flash |
| MMMU-Pro | 83.6% | — | — | Flash |
| SWE-Bench Pro | — | 64.3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76.2% | — | 78.2% | GPT-5.5 (+2.0) |
| OSWorld-Verified | — | — | 78.7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36.2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72.1% | — | 84.6% | GPT-5.5 (+12.5) |
三点解读:
在智能体编排方面,Flash 现已成为首选默认模型。 MCP Atlas 衡量的是多步骤工具驱动型工作流——这正是大多数企业级智能体系统实际部署的场景。以 Flash 定价在此基准上超越 Opus 4.5 个百分点,意味着单位成本下的能力发生了实质性转变。Toolathlon 和 Finance Agent v2 进一步印证了这一规律:凡是以智能体方式运作的任务(规划、调用工具、整合结果、迭代执行),Flash 均处于领先地位。
在终端式编程方面,GPT-5.5 仍以微弱优势胜出。 Terminal-Bench 2.1 上 2 个百分点的差距并不决定性——但结合 GPT-5.5 在 GDPval-AA(113 Elo)和 OSWorld-Verified 上的优势,可以得出结论:如果你的工作流是”给模型一个终端和一个任务”,GPT-5.5 仍是更合适的选择。Flash 缩小了差距,但尚未完全追平。
在硬性抽象推理方面,Flash 存在明显短板。 ARC-AGI-2 是最清晰的信号——Flash 比 GPT-5.5 低 12.5 个百分点。这与我们昨天关于 Flash 在 Humanity’s Last Exam 和长上下文检索方面相较前代 Gemini 3.1 Pro 出现退步的报道一致。Flash 架构显然是以牺牲推理深度来换取速度和成本优势。预计 6 月发布的 Gemini 3.5 Pro 将是应对这一权衡的答案。
定价对比
| 模型 | 输入($/1M) | 输出($/1M) | 输出倍率 | 备注 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 6.0× | 缓存输入 $0.15 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 5.0× | 100 万 token 上下文统一价 |
| Claude Opus 4.7 | $5.00 | $25.00 | 5.0× | Pro 级推理 |
| GPT-5.5 | $1.25 | $10.00 | 8.0× | 输入价格最低 |
| Gemini 3.1 Pro(上一代) | $2.50 | $15.00 | 6.0× | 比 Flash 贵 40% |
Flash 在输入和输出两个维度上均低于 Sonnet 4.6,同时在智能体基准测试上领先 Opus 4.7。这是开发者需要认清的定价逻辑:智能体编排的默认选择,输入成本降低了 50%,输出成本降低了 40%,且在同等层级相比上一代默认模型,基准测试表现明显更优。
$0.15/1M 的缓存输入定价,对任何 RAG 或重度使用记忆的工作流来说,都足以在成本计算上产生决定性影响。如果每次请求需要填入 50 万 token 的缓存上下文,Flash 的缓存层定价约为 Sonnet 4.6 标准输入价格的 10%。这不是利润率上的微小差异,而是完全不同的成本量级。
Flash 在生产环境中的适用场景
基于基准数据,以下是具体的部署建议:
适合使用 Flash 的场景:
- MCP / 工具编排型智能体。 这是 Flash 真正领先的领域,且价格优势最为突出。
- 高吞吐量 API 工作流,单次成本比峰值智能水平更重要:数据转换、分类、结构化提取、批量处理。
- 多模态管道,输入图像/音频/视频并输出文本——Flash 原生支持全部四种输入模态。
- 缓存密集型工作流(长上下文 RAG、对话记忆、文档检索)——$0.15/1M 的缓存输入是前沿级别中最低的。
暂不适合使用 Flash 的场景:
- 硬性抽象推理——ARC-AGI-2 类型的问题。GPT-5.5 是更合适的选择。
- 128K+ 长上下文检索——Flash 相比上一代 Gemini 3.1 Pro 在此方面有所退步。等待 6 月的 3.5 Pro。
- 纯终端编程智能体——GPT-5.5 在 Terminal-Bench 上仍有 2 个百分点的优势,在多步骤编程工作流中会持续积累。
- 需要按请求控制思考预算的工作负载——Flash 的思考模式是内置的,不作为参数对外暴露。
今天真正改变的是什么
Flash 发布带来了三项实质性转变:
- 默认智能体模型不再是 Pro 级别。 “尽可能使用最强模型”这一建议,对智能体工作流而言已不再适用。对于 MCP 编排任务,Flash 在超越竞争对手 Pro 级模型的同时,价格还更低。
- Gemini 文本系列在智能体能力上完成追赶。 发布前,主流观点认为”Gemini 在代码和智能体方面落后”。发布后,Flash 在大多数智能体评测套件上处于领先,在代码方面也具备竞争力。这一叙事需要更新。
- 推理能力的差距扩大了,而非缩小。 Flash 在 ARC-AGI-2 和 Humanity’s Last Exam 上的退步是客观存在的。6 月的 Pro 版发布,将成为检验 Gemini 能否弥合这一特定差距的关键节点。
部署路径
当前最清晰的部署方案取决于你所使用的平台:
- 通过 Google 直接调用生产 API:经由 Vertex AI 或 AI Studio 使用
gemini-3.5-flash,两者暴露的是同一模型。 - 在 Antigravity 中(Google 的 IDE 式编程平台):对大多数工作流而言,将默认模型从
gemini-3.1-pro切换到gemini-3.5-flash是正确的做法。 - 在多厂商路由器中:将
gemini-3.5-flash加入你的智能体编排策略。对于 MCP / 工具密集型路径,优先路由到 Flash;终端编程和 ARC 类推理任务回退到 GPT-5.5。 - 在 WaveSpeedAI 上:WaveSpeedAI LLM 端点 为你提供兼容 OpenAI 的统一 API key,访问当前前沿文本模型。随着 Gemini 3.5 Flash 完成接入,你将能够在同一平台下对其与其他模型进行 A/B 测试。
六月值得关注的动态
未来四周内将有两件事得到明确:
- Gemini 3.5 Pro 发布。 这将决定 Flash 在推理和长上下文方面的退步能否得到修复。如果 Pro 在 Humanity’s Last Exam 上超越 3.1 Pro,同时在 Terminal-Bench 上与 Flash 持平,则整个 Gemini 3.5 系列将成为新的默认选择。如果 Pro 只是在更高成本下修补了退步问题,则产品线将维持分化格局。
- 独立智能体基准复现。 Google 的 MCP Atlas / Toolathlon / Finance Agent 数据为第一方数据。真正值得关注的问题是:第三方智能体基准套件(LangChain Bench、MetaGPT eval 等)能否复现这一领先优势。未来两到三周内,留意相关复现研究的结果。
在此之前:Flash 已正式发布,智能体编排成本已经下降,本周大多数开发者面临的问题是:现在就将智能体路径从 Opus 4.7 迁移到 gemini-3.5-flash,还是等待 3.5 Pro?
来源:LLM Stats 关于 Gemini 3.5 Flash 的分析、Digital Applied 智能体编程对比、Seeking Alpha 关于智能体基准领先地位的报道、DataCamp Gemini 3.5 Flash 评测、Vertex AI 发布说明。
