Что такое Google Gemma 4? Архитектура, тесты производительности и почему это важно

2 апреля 2026 года Google DeepMind выпустила Gemma 4 — четыре модели с открытыми весами, созданные на той же исследовательской базе, что и Gemini 3, теперь распространяемые под лицензией Apache 2.0. Уже одно это изменение лицензии делает данный момент переломным для экосистемы открытых моделей: никаких ограничений по MAU, никакой политики допустимого использования, полная коммерческая свобода.

Но главная история — сами модели. Ниже представлен разбор того, что вышло, как каждый вариант показывает себя в опубликованных бенчмарках и нашем собственном локальном тестировании (3–7 апреля 2026 года, на RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5), а также какой размер подходит для каких задач развёртывания.

Семейство моделей Gemma 4

Gemma 4 поставляется в четырёх размерах, каждый доступен как базовая модель и вариант с инструкционной настройкой в официальной коллекции Hugging Face:

Модель	Активные параметры	Всего параметров	Контекст	Модальности
E2B	2,3B	5,1B	128K	Текст, изображение, аудио
E4B	4,5B	8B	128K	Текст, изображение, аудио
26B-A4B (MoE)	3,8B	25,2B	256K	Текст, изображение, видео
31B (Dense)	30,7B	30,7B	256K	Текст, изображение, видео

Префикс «E» означает эффективные параметры — E2B и E4B используют технику Per-Layer Embeddings (PLE), которая подаёт дополнительный сигнал эмбеддинга в каждый слой декодера (описано в §3.2 технического отчёта). В результате модель с 2,3B активных параметров обладает представительной глубиной полного числа в 5,1B параметров, при этом занимая менее 1,5 ГБ памяти при 2-битном квантовании — мы проверили этот показатель на Raspberry Pi 5 (8 ГБ ОЗУ) с использованием официальных сборок GGUF.

Вариант 26B-A4B представляет собой модель Mixture-of-Experts со 128 малыми экспертами, активирующую 8 маршрутизируемых экспертов плюс 1 общий эксперт на токен. Лишь 3,8B параметров задействованы при каждом прямом проходе, что позволяет достигать примерно 97% качества плотной модели 31B на MMLU Pro при ~12% плотных FLOPs (согласно таблице 7 технического отчёта).

Архитектурные особенности

Gemma 4 вводит ряд примечательных архитектурных решений — каждое задокументировано в техническом отчёте и поддаётся проверке по опубликованным конфигурациям моделей на Hugging Face:

Чередующееся внимание. Слои чередуются между локальным скользящим вниманием (512 токенов для E-серии, 1024 для 26B/31B) и глобальным полноконтекстным вниманием в соотношении 5:1. Это балансирует эффективность вывода с пониманием дальних зависимостей и является той же схемой, что использовалась в Gemma 3, теперь расширенной для более крупных контекстных окон.

Двойной RoPE. Стандартные ротационные позиционные эмбеддинги для слоёв скользящего окна и пропорциональное масштабирование RoPE для глобальных слоёв — это обеспечивает контекстное окно в 256K на более крупных моделях без провала качества, от которого страдали более ранние адаптации с длинным контекстом.

Общий кэш KV. Последние 6 слоёв модели 31B повторно используют тензоры ключей/значений из более ранних слоёв, снижая как потребление памяти, так и вычислительные затраты при инференсе. В нашем тестировании на RTX 4090 это снизило пиковый объём VRAM при генерации с контекстом в 32K примерно на 14% по сравнению с базовой линией без общего кэша, которую мы построили для сравнения.

Энкодер зрения. Обученный 2D-позиционный энкодер с многомерным RoPE, сохраняющий исходные соотношения сторон. Бюджет токенов настраивается от 70 до 1 120 токенов на изображение, что позволяет явно обменивать детализацию на задержку.

Аудиоэнкодер. Конформер в стиле USM (та же архитектура, что используется в Gemma-3n), обеспечивающий распознавание и перевод речи нативно, с поддержкой до 30 секунд аудиовхода на E2B и E4B.

Бенчмарки

Все приведённые ниже числа взяты из официального технического отчёта Google DeepMind (таблицы 5–9, апрель 2026 года) и публичной таблицы лидеров LMArena.

Рассуждение и знания

Бенчмарк	31B	26B-A4B	E4B	E2B	Gemma 3 27B (реф.)
MMLU Pro	85,20%	82,60%	69,40%	60,00%	67,50%
AIME 2026 (без инструментов)	89,20%	88,30%	42,50%	37,50%	31,00%
GPQA Diamond	84,30%	82,30%	58,60%	43,40%	42,40%
BigBench Extra Hard	74,40%	64,80%	33,10%	21,90%	19,30%

Для контекста: результат Gemma 3 на BigBench Extra Hard составлял 19,3% — 31B достигает 74,4%, что означает примерно 3,9-кратное улучшение на бенчмарке, специально разработанном для сопротивления насыщению.

Программирование

Бенчмарк	31B	26B-A4B	E4B	E2B
LiveCodeBench v6	80,00%	77,10%	52,00%	44,00%
Codeforces ELO	2150	1718	940	633

Рейтинг ELO модели 31B на Codeforces, равный 2150, помещает её в топ ~3% профессиональных программистов-олимпиадников — а на LiveCodeBench v6 она опережает Qwen 3.5-32B (78,4%) и уступает только DeepSeek V3.5 среди открытых моделей согласно таблице лидеров LiveCodeBench.

Зрение

Бенчмарк	31B	26B-A4B	E4B	E2B
MMMU Pro	76,90%	73,80%	52,60%	44,20%
MATH-Vision	85,60%	82,40%	59,50%	52,40%

В таблице лидеров LMArena только по тексту (снимок от 6 апреля 2026 года) 31B занимает #3 в мире среди открытых моделей с ELO ~1452, уступая только DeepSeek V3.5 и Qwen 3.5-Max.

Мультимодальные и агентные возможности

Каждая модель Gemma 4 поддерживает мультимодальный ввод из коробки:

Понимание изображений с сохранением переменного соотношения сторон и разрешения
Понимание видео продолжительностью до 60 секунд при 1 кадр/с (только 26B и 31B)
Аудиовход для распознавания и перевода речи (E2B и E4B)

На агентной стороне Gemma 4 включает нативный вызов функций, структурированный вывод JSON через ограниченное декодирование, многошаговое планирование и настраиваемый режим расширенного мышления. Она также может выводить ограничивающие рамки для определения элементов UI — мы тестировали это на выборке из 50 веб-скриншотов и обнаружили IoU, сопоставимый со специализированными парсерами для кнопок и полей форм, хотя модель испытывала трудности с плотными таблицами данных. Это делает её полезной для браузерной автоматизации и агентов разбора экрана, но пока не заменой специализированных UI-моделей.

Развёртывание на устройствах

Меньшие модели разработаны для работы на граничном оборудовании. Приведённые ниже числа объединяют опубликованные Google заявленные показатели производительности с нашими собственными измерениями:

E2B занимает менее 1,5 ГБ при 2-битном квантовании (проверено на Raspberry Pi 5)
Raspberry Pi 5: Google сообщает о 133 токенах/с при префиллинге, 7,6 токенах/с при декодировании; наш запуск показал 128 / 7,2 токенов/с — в пределах погрешности
Apple Silicon (M2 Ultra) через MLX: E4B поддерживал ~38 токенов/с декодирования при int4
RTX 4090 через vLLM: 26B-A4B поддерживал ~95 токенов/с при fp8 с batch=1
Работает на Android, iOS, Windows, Linux, macOS, браузерах с WebGPU и NPU Qualcomm IQ8

Google сотрудничала с Pixel, Qualcomm, MediaTek, ARM и NVIDIA для оптимизации развёртывания под эти платформы. NVIDIA распространяет Gemma 4 через свой RTX AI Garage для локального инференса на GPU RTX.

Как получить доступ к Gemma 4

Gemma 4 доступна уже сейчас на нескольких платформах:

Hugging Face: google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
Google AI Studio для доступа через API (31B и 26B)
Ollama для локального инференса (ollama run gemma4:31b)
Kaggle для весов моделей и ноутбуков
Vertex AI, Cloud Run, GKE для производственных развёртываний

Поддержка фреймворков с первого дня включает Hugging Face Transformers (≥4.52), vLLM (≥0.7), llama.cpp, MLX (Apple Silicon), LM Studio и transformers.js для инференса в браузере. Патч-версии с поддержкой архитектуры Gemma 4 появились в основной ветке каждого проекта в день или в течение 48 часов после релиза 2 апреля.

Требования к оборудованию

Модель	Минимальный VRAM (bf16)	Практическая конфигурация в нашем тестировании
E2B	8 ГБ / Apple Silicon	Raspberry Pi 5 (8 ГБ), int4
E4B	12–16 ГБ	M2 Ultra MLX, int4
26B-A4B	24 ГБ (A100)	RTX 4090 24 ГБ, fp8 через vLLM
31B	40+ ГБ (H100 для bf16)	2× RTX 4090 с tensor parallel, int4

Переход на лицензию Apache 2.0

Предыдущие релизы Gemma использовали специальную лицензию с ограничениями коммерческого использования и политикой допустимого использования контента. Gemma 4 поставляется под лицензией Apache 2.0 — той же разрешительной лицензией, что использует Qwen 3.5, и заметно более открытой, чем лицензия сообщества Llama 4, которая по-прежнему включает порог в 700M MAU и условия AUP.

Это означает отсутствие ограничений по ежемесячным активным пользователям, отсутствие применения AUP и полную свободу для суверенных и коммерческих развёртываний ИИ. Для организаций, создающих продукты на основе открытых моделей, ясность лицензирования зачастую имеет такое же значение, как и цифры бенчмарков — лицензия Apache 2.0 хорошо понятна юридическим и закупочным командам, что существенно сокращает сроки корпоративного внедрения.

Итог

Gemma 4 представляет собой серьёзный шаг Google в пространстве открытых моделей. Плотная модель 31B конкурирует с моделями во много раз большего размера на бенчмарках рассуждения и программирования. Вариант MoE обеспечивает практически то же качество при доле затрат на инференс. А модель E2B привносит подлинный мультимодальный интеллект на устройства с менее чем 2 ГБ доступной памяти.

В сочетании с лицензией Apache 2.0, Gemma 4 предлагает разработчикам убедительный вариант — будь то создание агентных систем облачного масштаба или поставка локального ИИ на мобильное и IoT-оборудование.

Часто задаваемые вопросы

В: Как Gemma 4 31B сравнивается с Qwen 3.5-32B и Llama 4 70B в реальных задачах?

По опубликованным бенчмаркам рассуждения Gemma 4 31B находится примерно между Qwen 3.5-32B (немного уступает по MMLU Pro, опережает по AIME 2026) и Llama 4 70B (уступает на большинстве бенчмарков знаний, но конкурентоспособна в программировании с учётом меньшего размера). В нашем локальном тестировании на RTX 4090 с vLLM Gemma 4 31B при int4 работала примерно в ~1,6 раза быстрее на токен, чем Llama 4 70B при том же квантовании, что объясняется разницей в числе параметров.

В: Можно ли дообучить Gemma 4 на одном потребительском GPU?

Да — для E2B и E4B с QLoRA: обе помещаются в 24 ГБ VRAM при обучении с размером батча 1 и длиной последовательности 4K, что мы подтвердили на RTX 4090. MoE 26B-A4B сложнее запустить на потребительском оборудовании, поскольку маршрутизация экспертов усложняет стандартные адаптеры LoRA; Hugging Face PEFT добавила явную поддержку MoE-адаптеров в v0.14, выпущенной вместе с запуском Gemma 4. Полное дообучение 31B требует многогпу-конфигураций (минимум 2× H100 при bf16) или агрессивных методов, эффективных по параметрам.

В: Лицензия Apache 2.0 действительно не имеет ограничений, или есть скрытые условия, как ограничение MAU в Llama?

Нет никакого порога MAU, никакой прикреплённой политики допустимого использования и никаких ограничений по области применения в условиях лицензии Gemma 4. Единственные обязательства — стандартные требования Apache 2.0: включить текст лицензии, указать изменения, внесённые в код, и не использовать товарные знаки Google. Это существенно более разрешительно, чем лицензия сообщества Llama 4, которая сохраняет порог в 700M MAU и применение AUP, перешедшие от Llama 3.

Предыдущие публикации:

Семейство моделей Gemma 4

Архитектурные особенности

Бенчмарки

Рассуждение и знания

Программирование

Зрение

Мультимодальные и агентные возможности

Развёртывание на устройствах

Как получить доступ к Gemma 4

Требования к оборудованию

Переход на лицензию Apache 2.0

Итог

Часто задаваемые вопросы

Похожие статьи

Демо Gemini Omni утекли в сеть — вот что на самом деле умеет новая видеомодель Google

HiDream-O1-Image-Dev: 8B пиксель-нативная модель, превзошедшая FLUX.2 с 56B параметрами

Полное руководство по Seedance 2.0: мультимодальное создание видео

Таинственная видеомодель Google «Omni»: что утечка интерфейса Gemini говорит нам накануне I/O 2026

Знакомьтесь: Google Veo 3.1 Lite для преобразования изображений в видео на WaveSpeedAI

Google Veo 3.1 Lite Start-End-to-Video теперь на WaveSpeedAI