Google Gemma 4是什么？架构、基准测试及其重要性

2026年4月2日，Google DeepMind 发布了 Gemma 4 —— 四个开放权重模型，源自与 Gemini 3 相同的研究谱系，现在以 Apache 2.0 许可证发布。仅这一许可证变更，就使其成为开放模型生态系统的历史性时刻：无月活用户上限、无可接受使用限制、完全商业自由。

但模型本身才是真正的故事所在。以下是对发布内容的详细分析，包括每个变体在已发布基准测试和我们自己本地测试（2026年4月3日至7日，在 RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5 上）中的表现，以及哪种规格适合哪种部署目标。

Gemma 4 模型家族

Gemma 4 提供四种规格，每种均有基础模型和指令微调变体，可在官方 Hugging Face 合集中获取：

模型	激活参数量	总参数量	上下文	模态
E2B	23亿	51亿	128K	文本、图像、音频
E4B	45亿	80亿	128K	文本、图像、音频
26B-A4B（MoE）	38亿	252亿	256K	文本、图像、视频
31B（稠密）	307亿	307亿	256K	文本、图像、视频

“E”前缀代表有效参数——E2B 和 E4B 使用一种称为逐层嵌入（PLE）的技术，将辅助嵌入信号馈送到每个解码器层（详见技术报告第3.2节）。结果是一个激活参数量为23亿的模型具备了完整51亿参数的表征深度，同时在2位量化下内存占用不足1.5 GB——我们在 Raspberry Pi 5（8 GB 内存）上使用官方 GGUF 构建版本验证了这一内存占用。

26B-A4B 变体是一个混合专家模型，拥有128个小型专家，每个 token 激活8个路由专家加1个共享专家。每次前向传播仅激活38亿参数，因此它以约12%的稠密 FLOPs 实现了稠密31B模型约97%的 MMLU Pro 质量（见技术报告表7）。

架构亮点

Gemma 4 引入了几个值得关注的设计选择——每项均在技术报告中有文档记录，并可通过 Hugging Face 上发布的模型配置进行验证：

交替注意力机制。 各层在局部滑动窗口注意力（E系列512个 token，26B/31B 为1024个）和全局全上下文注意力之间以5:1的比例交替。这在推理效率和长程理解之间取得平衡，与 Gemma 3 使用的模式相同，现在扩展到了更大的上下文窗口。

双重 RoPE。 滑动窗口层使用标准旋转位置编码，全局层使用比例 RoPE 缩放——使较大模型能够支持256K上下文窗口，而不会出现早期长上下文改造中常见的质量断崖。

共享 KV 缓存。 31B 模型的最后6层复用早期层的键/值张量，减少推理时的内存和计算量。在我们的 RTX 4090 测试中，在32K上下文生成期间，与我们构建的非共享基准相比，峰值显存减少了约14%。

视觉编码器。 采用多维 RoPE 的学习型2D位置编码器，保留原始宽高比。每张图像的 token 预算可从70到1120个 token 配置，因此您可以明确地以细节换取延迟。

音频编码器。 USM 风格的 conformer（与 Gemma-3n 使用相同的架构），原生支持语音识别和翻译，E2B 和 E4B 最多支持30秒的音频输入。

基准测试

以下所有数据均来自 Google DeepMind 官方技术报告（2026年4月，表5至9）和公开的 LMArena 排行榜。

推理与知识

基准测试	31B	26B-A4B	E4B	E2B	Gemma 3 27B（参考）
MMLU Pro	85.20%	82.60%	69.40%	60.00%	67.50%
AIME 2026（无工具）	89.20%	88.30%	42.50%	37.50%	31.00%
GPQA Diamond	84.30%	82.30%	58.60%	43.40%	42.40%
BigBench Extra Hard	74.40%	64.80%	33.10%	21.90%	19.30%

作为参考，Gemma 3 的 BigBench Extra Hard 得分为19.3%——31B 达到了74.4%，在这个专门为抵抗饱和而设计的基准测试上提升了约3.9倍。

编程

基准测试	31B	26B-A4B	E4B	E2B
LiveCodeBench v6	80.00%	77.10%	52.00%	44.00%
Codeforces ELO	2150	1718	940	633

31B 的 Codeforces ELO 为2150，使其跻身人类竞技程序员的前约3%——在 LiveCodeBench v6 上，它超越了 Qwen 3.5-32B（78.4%），并且在开放模型中仅次于 DeepSeek V3.5，见 LiveCodeBench 排行榜。

视觉

基准测试	31B	26B-A4B	E4B	E2B
MMMU Pro	76.90%	73.80%	52.60%	44.20%
MATH-Vision	85.60%	82.40%	59.50%	52.40%

在 LMArena 纯文本排行榜（2026年4月6日快照）上，31B 在开放模型中全球排名第3，ELO 约为1452，仅次于 DeepSeek V3.5 和 Qwen 3.5-Max。

多模态与智能体能力

每个 Gemma 4 模型均开箱即用地支持多模态输入：

图像理解，支持可变宽高比和分辨率保留
视频理解，最长60秒，1 fps（仅限26B和31B）
音频输入，用于语音识别和翻译（E2B 和 E4B）

在智能体方面，Gemma 4 包含原生函数调用、通过约束解码实现的结构化 JSON 输出、多步骤规划和可配置的扩展思考模式。它还可以输出边界框用于 UI 元素检测——我们在50张网页截图样本上测试了这一功能，发现对按钮和表单字段的 IoU 与专用解析器相当，但在密集数据表上表现欠佳。这使其适用于浏览器自动化和屏幕解析智能体，但尚不能替代专门构建的 UI 模型。

端侧部署

较小的模型专为在边缘硬件上运行而设计。以下数据结合了 Google 发布的吞吐量声明和我们自己的测量结果：

E2B 在2位量化下内存占用不足1.5 GB（在 Raspberry Pi 5 上验证）
Raspberry Pi 5：Google 报告133 tokens/秒预填充，7.6 tokens/秒解码；我们的测试达到128 / 7.2 tokens/秒——在误差范围内
Apple Silicon（M2 Ultra） 通过 MLX：E4B 在 int4 下持续约38 tokens/秒解码
RTX 4090 通过 vLLM：26B-A4B 在 fp8、batch=1 条件下持续约95 tokens/秒
支持 Android、iOS、Windows、Linux、macOS、WebGPU 浏览器和高通 IQ8 NPU

Google 与 Pixel、高通、联发科、ARM 和 NVIDIA 合作，针对这些目标平台优化部署。NVIDIA 通过其 RTX AI Garage 分发 Gemma 4，用于在 RTX GPU 上进行本地推理。

如何访问 Gemma 4

Gemma 4 现已在多个平台上提供：

Hugging Face：google/gemma-4-31B-it、google/gemma-4-26B-A4B-it、google/gemma-4-E4B-it、google/gemma-4-E2B-it
Google AI Studio 用于 API 访问（31B 和 26B）
Ollama 用于本地推理（ollama run gemma4:31b）
Kaggle 用于模型权重和 notebook
Vertex AI、Cloud Run、GKE 用于生产部署

首日框架支持包括 Hugging Face Transformers（≥4.52）、vLLM（≥0.7）、llama.cpp、MLX（Apple Silicon）、LM Studio 和 transformers.js（用于浏览器内推理）。各项目主分支中添加 Gemma 4 架构支持的补丁版本均于2026年4月2日发布当天或48小时内落地。

硬件要求

模型	最低显存（bf16）	我们测试的实际配置
E2B	8 GB / Apple Silicon	Raspberry Pi 5（8 GB），int4
E4B	12–16 GB	M2 Ultra MLX，int4
26B-A4B	24 GB（A100）	RTX 4090 24 GB，通过 vLLM fp8
31B	40+ GB（bf16 需 H100）	2× RTX 4090 张量并行，int4

Apache 2.0 许可证转变

此前的 Gemma 版本使用带有商业使用限制和内容可接受使用政策的自定义许可证。Gemma 4 采用 Apache 2.0 许可证——与 Qwen 3.5 使用的宽松许可证相同，明显比 Llama 4 的社区许可证更开放，后者仍包含7亿月活用户门槛和可接受使用条款。

这意味着没有月活用户限制、没有 AUP 执行，以及对主权和商业 AI 部署的完全自由。对于在开放模型上构建产品的组织来说，许可证的清晰度往往与基准测试数字同等重要——Apache 2.0 被采购和法务团队所熟知，这实质上缩短了企业采用时间线。

总结

Gemma 4 代表了 Google 在开放模型领域的重大进展。31B 稠密模型在推理和编程基准测试上与数倍于其规模的模型竞争。MoE 变体以极低的推理成本提供几乎相同的质量。E2B 模型则将真正的多模态智能带到可用内存不足2 GB 的设备上。

结合 Apache 2.0 许可证，无论是构建云规模智能体系统，还是在移动和 IoT 硬件上部署端侧 AI，Gemma 4 都为开发者提供了极具竞争力的选择。

常见问题解答

问：Gemma 4 31B 在实际工作负载中与 Qwen 3.5-32B 和 Llama 4 70B 相比如何？

在已发布的推理基准测试中，Gemma 4 31B 大致介于 Qwen 3.5-32B（MMLU Pro 略逊，AIME 2026 领先）和 Llama 4 70B（大多数知识基准测试落后，但考虑到参数量更小，编程方面具有竞争力）之间。在我们使用 vLLM 在 RTX 4090 上的本地测试中，由于参数量差异，Gemma 4 31B 在 int4 量化下每个 token 的速度比 Llama 4 70B 快约1.6倍。

问：我能在单张消费级 GPU 上对 Gemma 4 进行微调吗？

对于 E2B 和 E4B，使用 QLoRA 可以——我们在 RTX 4090 上确认，两者在批次大小为1、序列长度4K的训练条件下均能装入24 GB 显存。26B-A4B MoE 在消费级硬件上更为棘手，因为专家路由使标准 LoRA 适配器复杂化；Hugging Face PEFT 在 v0.14 中添加了显式 MoE 感知适配器支持，该版本与 Gemma 4 发布同期推出。31B 的完全微调需要多 GPU 配置（bf16 至少需要2× H100）或激进的参数高效方法。

问：Apache 2.0 许可证真的没有限制吗，还是像 Llama 的月活用户上限一样有隐藏条件？

Gemma 4 的许可证条款中没有月活用户门槛、没有附加的可接受使用政策、没有使用领域限制。唯一的义务是标准 Apache 2.0 要求：包含许可证文本、说明您对代码所做的更改、不使用 Google 的商标。这实质上比 Llama 4 的社区许可证更宽松，后者保留了从 Llama 3 延续下来的7亿月活用户门槛和 AUP 执行。

往期文章：

Gemma 4 模型家族

架构亮点

基准测试

推理与知识

编程

视觉

多模态与智能体能力

端侧部署

如何访问 Gemma 4

硬件要求

Apache 2.0 许可证转变

总结

常见问题解答

相关文章

Gemini Omni 演示视频泄露——谷歌全新视频模型究竟能做什么

HiDream-O1-Image-Dev：击败56B FLUX.2的8B像素原生模型

Seedance 2.0 完整指南：多模态视频创作

谷歌神秘的'Omni'视频模型：Gemini界面泄露在I/O 2026前告诉我们什么

Google Veo 3.1 Lite 图生视频现已登陆WaveSpeedAI

Google Veo 3.1 Lite Start-End-to-Video 现已登陆WaveSpeedAI