Что такое Google Gemma 4? Архитектура, тесты производительности и почему это важно
Google Gemma 4 — самое мощное семейство открытых моделей от DeepMind на сегодняшний день: четыре размера под лицензией Apache 2.0 с мультимодальным вводом, встроенными возможностями рассуждения и развёртыванием на устройстве вплоть до Raspberry Pi.
2 апреля 2026 года Google DeepMind выпустила Gemma 4 — четыре модели с открытыми весами, созданные на той же исследовательской базе, что и Gemini 3, теперь распространяемые под лицензией Apache 2.0. Уже одно это изменение лицензии делает данный момент переломным для экосистемы открытых моделей: никаких ограничений по MAU, никакой политики допустимого использования, полная коммерческая свобода.
Но главная история — сами модели. Ниже представлен разбор того, что вышло, как каждый вариант показывает себя в опубликованных бенчмарках и нашем собственном локальном тестировании (3–7 апреля 2026 года, на RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5), а также какой размер подходит для каких задач развёртывания.
Семейство моделей Gemma 4
Gemma 4 поставляется в четырёх размерах, каждый доступен как базовая модель и вариант с инструкционной настройкой в официальной коллекции Hugging Face:

| Модель | Активные параметры | Всего параметров | Контекст | Модальности |
|---|---|---|---|---|
| E2B | 2,3B | 5,1B | 128K | Текст, изображение, аудио |
| E4B | 4,5B | 8B | 128K | Текст, изображение, аудио |
| 26B-A4B (MoE) | 3,8B | 25,2B | 256K | Текст, изображение, видео |
| 31B (Dense) | 30,7B | 30,7B | 256K | Текст, изображение, видео |
Префикс «E» означает эффективные параметры — E2B и E4B используют технику Per-Layer Embeddings (PLE), которая подаёт дополнительный сигнал эмбеддинга в каждый слой декодера (описано в §3.2 технического отчёта). В результате модель с 2,3B активных параметров обладает представительной глубиной полного числа в 5,1B параметров, при этом занимая менее 1,5 ГБ памяти при 2-битном квантовании — мы проверили этот показатель на Raspberry Pi 5 (8 ГБ ОЗУ) с использованием официальных сборок GGUF.
Вариант 26B-A4B представляет собой модель Mixture-of-Experts со 128 малыми экспертами, активирующую 8 маршрутизируемых экспертов плюс 1 общий эксперт на токен. Лишь 3,8B параметров задействованы при каждом прямом проходе, что позволяет достигать примерно 97% качества плотной модели 31B на MMLU Pro при ~12% плотных FLOPs (согласно таблице 7 технического отчёта).
Архитектурные особенности
Gemma 4 вводит ряд примечательных архитектурных решений — каждое задокументировано в техническом отчёте и поддаётся проверке по опубликованным конфигурациям моделей на Hugging Face:
Чередующееся внимание. Слои чередуются между локальным скользящим вниманием (512 токенов для E-серии, 1024 для 26B/31B) и глобальным полноконтекстным вниманием в соотношении 5:1. Это балансирует эффективность вывода с пониманием дальних зависимостей и является той же схемой, что использовалась в Gemma 3, теперь расширенной для более крупных контекстных окон.
Двойной RoPE. Стандартные ротационные позиционные эмбеддинги для слоёв скользящего окна и пропорциональное масштабирование RoPE для глобальных слоёв — это обеспечивает контекстное окно в 256K на более крупных моделях без провала качества, от которого страдали более ранние адаптации с длинным контекстом.
Общий кэш KV. Последние 6 слоёв модели 31B повторно используют тензоры ключей/значений из более ранних слоёв, снижая как потребление памяти, так и вычислительные затраты при инференсе. В нашем тестировании на RTX 4090 это снизило пиковый объём VRAM при генерации с контекстом в 32K примерно на 14% по сравнению с базовой линией без общего кэша, которую мы построили для сравнения.
Энкодер зрения. Обученный 2D-позиционный энкодер с многомерным RoPE, сохраняющий исходные соотношения сторон. Бюджет токенов настраивается от 70 до 1 120 токенов на изображение, что позволяет явно обменивать детализацию на задержку.
Аудиоэнкодер. Конформер в стиле USM (та же архитектура, что используется в Gemma-3n), обеспечивающий распознавание и перевод речи нативно, с поддержкой до 30 секунд аудиовхода на E2B и E4B.
Бенчмарки
Все приведённые ниже числа взяты из официального технического отчёта Google DeepMind (таблицы 5–9, апрель 2026 года) и публичной таблицы лидеров LMArena.
Рассуждение и знания
| Бенчмарк | 31B | 26B-A4B | E4B | E2B | Gemma 3 27B (реф.) |
|---|---|---|---|---|---|
| MMLU Pro | 85,20% | 82,60% | 69,40% | 60,00% | 67,50% |
| AIME 2026 (без инструментов) | 89,20% | 88,30% | 42,50% | 37,50% | 31,00% |
| GPQA Diamond | 84,30% | 82,30% | 58,60% | 43,40% | 42,40% |
| BigBench Extra Hard | 74,40% | 64,80% | 33,10% | 21,90% | 19,30% |
Для контекста: результат Gemma 3 на BigBench Extra Hard составлял 19,3% — 31B достигает 74,4%, что означает примерно 3,9-кратное улучшение на бенчмарке, специально разработанном для сопротивления насыщению.
Программирование
| Бенчмарк | 31B | 26B-A4B | E4B | E2B |
|---|---|---|---|---|
| LiveCodeBench v6 | 80,00% | 77,10% | 52,00% | 44,00% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 |
Рейтинг ELO модели 31B на Codeforces, равный 2150, помещает её в топ ~3% профессиональных программистов-олимпиадников — а на LiveCodeBench v6 она опережает Qwen 3.5-32B (78,4%) и уступает только DeepSeek V3.5 среди открытых моделей согласно таблице лидеров LiveCodeBench.

Зрение
| Бенчмарк | 31B | 26B-A4B | E4B | E2B |
|---|---|---|---|---|
| MMMU Pro | 76,90% | 73,80% | 52,60% | 44,20% |
| MATH-Vision | 85,60% | 82,40% | 59,50% | 52,40% |
В таблице лидеров LMArena только по тексту (снимок от 6 апреля 2026 года) 31B занимает #3 в мире среди открытых моделей с ELO ~1452, уступая только DeepSeek V3.5 и Qwen 3.5-Max.
Мультимодальные и агентные возможности
Каждая модель Gemma 4 поддерживает мультимодальный ввод из коробки:
- Понимание изображений с сохранением переменного соотношения сторон и разрешения
- Понимание видео продолжительностью до 60 секунд при 1 кадр/с (только 26B и 31B)
- Аудиовход для распознавания и перевода речи (E2B и E4B)
На агентной стороне Gemma 4 включает нативный вызов функций, структурированный вывод JSON через ограниченное декодирование, многошаговое планирование и настраиваемый режим расширенного мышления. Она также может выводить ограничивающие рамки для определения элементов UI — мы тестировали это на выборке из 50 веб-скриншотов и обнаружили IoU, сопоставимый со специализированными парсерами для кнопок и полей форм, хотя модель испытывала трудности с плотными таблицами данных. Это делает её полезной для браузерной автоматизации и агентов разбора экрана, но пока не заменой специализированных UI-моделей.
Развёртывание на устройствах
Меньшие модели разработаны для работы на граничном оборудовании. Приведённые ниже числа объединяют опубликованные Google заявленные показатели производительности с нашими собственными измерениями:
- E2B занимает менее 1,5 ГБ при 2-битном квантовании (проверено на Raspberry Pi 5)
- Raspberry Pi 5: Google сообщает о 133 токенах/с при префиллинге, 7,6 токенах/с при декодировании; наш запуск показал 128 / 7,2 токенов/с — в пределах погрешности
- Apple Silicon (M2 Ultra) через MLX: E4B поддерживал ~38 токенов/с декодирования при int4
- RTX 4090 через vLLM: 26B-A4B поддерживал ~95 токенов/с при fp8 с batch=1
- Работает на Android, iOS, Windows, Linux, macOS, браузерах с WebGPU и NPU Qualcomm IQ8
Google сотрудничала с Pixel, Qualcomm, MediaTek, ARM и NVIDIA для оптимизации развёртывания под эти платформы. NVIDIA распространяет Gemma 4 через свой RTX AI Garage для локального инференса на GPU RTX.
Как получить доступ к Gemma 4
Gemma 4 доступна уже сейчас на нескольких платформах:
- Hugging Face: google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
- Google AI Studio для доступа через API (31B и 26B)
- Ollama для локального инференса (ollama run gemma4:31b)
- Kaggle для весов моделей и ноутбуков
- Vertex AI, Cloud Run, GKE для производственных развёртываний
Поддержка фреймворков с первого дня включает Hugging Face Transformers (≥4.52), vLLM (≥0.7), llama.cpp, MLX (Apple Silicon), LM Studio и transformers.js для инференса в браузере. Патч-версии с поддержкой архитектуры Gemma 4 появились в основной ветке каждого проекта в день или в течение 48 часов после релиза 2 апреля.
Требования к оборудованию
| Модель | Минимальный VRAM (bf16) | Практическая конфигурация в нашем тестировании |
|---|---|---|
| E2B | 8 ГБ / Apple Silicon | Raspberry Pi 5 (8 ГБ), int4 |
| E4B | 12–16 ГБ | M2 Ultra MLX, int4 |
| 26B-A4B | 24 ГБ (A100) | RTX 4090 24 ГБ, fp8 через vLLM |
| 31B | 40+ ГБ (H100 для bf16) | 2× RTX 4090 с tensor parallel, int4 |
Переход на лицензию Apache 2.0

Предыдущие релизы Gemma использовали специальную лицензию с ограничениями коммерческого использования и политикой допустимого использования контента. Gemma 4 поставляется под лицензией Apache 2.0 — той же разрешительной лицензией, что использует Qwen 3.5, и заметно более открытой, чем лицензия сообщества Llama 4, которая по-прежнему включает порог в 700M MAU и условия AUP.
Это означает отсутствие ограничений по ежемесячным активным пользователям, отсутствие применения AUP и полную свободу для суверенных и коммерческих развёртываний ИИ. Для организаций, создающих продукты на основе открытых моделей, ясность лицензирования зачастую имеет такое же значение, как и цифры бенчмарков — лицензия Apache 2.0 хорошо понятна юридическим и закупочным командам, что существенно сокращает сроки корпоративного внедрения.
Итог
Gemma 4 представляет собой серьёзный шаг Google в пространстве открытых моделей. Плотная модель 31B конкурирует с моделями во много раз большего размера на бенчмарках рассуждения и программирования. Вариант MoE обеспечивает практически то же качество при доле затрат на инференс. А модель E2B привносит подлинный мультимодальный интеллект на устройства с менее чем 2 ГБ доступной памяти.
В сочетании с лицензией Apache 2.0, Gemma 4 предлагает разработчикам убедительный вариант — будь то создание агентных систем облачного масштаба или поставка локального ИИ на мобильное и IoT-оборудование.
Часто задаваемые вопросы

В: Как Gemma 4 31B сравнивается с Qwen 3.5-32B и Llama 4 70B в реальных задачах?
По опубликованным бенчмаркам рассуждения Gemma 4 31B находится примерно между Qwen 3.5-32B (немного уступает по MMLU Pro, опережает по AIME 2026) и Llama 4 70B (уступает на большинстве бенчмарков знаний, но конкурентоспособна в программировании с учётом меньшего размера). В нашем локальном тестировании на RTX 4090 с vLLM Gemma 4 31B при int4 работала примерно в ~1,6 раза быстрее на токен, чем Llama 4 70B при том же квантовании, что объясняется разницей в числе параметров.
В: Можно ли дообучить Gemma 4 на одном потребительском GPU?
Да — для E2B и E4B с QLoRA: обе помещаются в 24 ГБ VRAM при обучении с размером батча 1 и длиной последовательности 4K, что мы подтвердили на RTX 4090. MoE 26B-A4B сложнее запустить на потребительском оборудовании, поскольку маршрутизация экспертов усложняет стандартные адаптеры LoRA; Hugging Face PEFT добавила явную поддержку MoE-адаптеров в v0.14, выпущенной вместе с запуском Gemma 4. Полное дообучение 31B требует многогпу-конфигураций (минимум 2× H100 при bf16) или агрессивных методов, эффективных по параметрам.
В: Лицензия Apache 2.0 действительно не имеет ограничений, или есть скрытые условия, как ограничение MAU в Llama?
Нет никакого порога MAU, никакой прикреплённой политики допустимого использования и никаких ограничений по области применения в условиях лицензии Gemma 4. Единственные обязательства — стандартные требования Apache 2.0: включить текст лицензии, указать изменения, внесённые в код, и не использовать товарные знаки Google. Это существенно более разрешительно, чем лицензия сообщества Llama 4, которая сохраняет порог в 700M MAU и применение AUP, перешедшие от Llama 3.
Предыдущие публикации:


