← Блог

Что такое Google Gemma 4? Архитектура, тесты производительности и почему это важно

Google Gemma 4 — самое мощное семейство открытых моделей от DeepMind на сегодняшний день: четыре размера под лицензией Apache 2.0 с мультимодальным вводом, встроенными возможностями рассуждения и развёртыванием на устройстве вплоть до Raspberry Pi.

9 min read
Что такое Google Gemma 4? Архитектура, тесты производительности и почему это важно

2 апреля 2026 года Google DeepMind выпустила Gemma 4 — четыре модели с открытыми весами, созданные на той же исследовательской базе, что и Gemini 3, теперь распространяемые под лицензией Apache 2.0. Уже одно это изменение лицензии делает данный момент переломным для экосистемы открытых моделей: никаких ограничений по MAU, никакой политики допустимого использования, полная коммерческая свобода.

Но главная история — сами модели. Ниже представлен разбор того, что вышло, как каждый вариант показывает себя в опубликованных бенчмарках и нашем собственном локальном тестировании (3–7 апреля 2026 года, на RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5), а также какой размер подходит для каких задач развёртывания.

Семейство моделей Gemma 4

Gemma 4 поставляется в четырёх размерах, каждый доступен как базовая модель и вариант с инструкционной настройкой в официальной коллекции Hugging Face:

МодельАктивные параметрыВсего параметровКонтекстМодальности
E2B2,3B5,1B128KТекст, изображение, аудио
E4B4,5B8B128KТекст, изображение, аудио
26B-A4B (MoE)3,8B25,2B256KТекст, изображение, видео
31B (Dense)30,7B30,7B256KТекст, изображение, видео

Префикс «E» означает эффективные параметры — E2B и E4B используют технику Per-Layer Embeddings (PLE), которая подаёт дополнительный сигнал эмбеддинга в каждый слой декодера (описано в §3.2 технического отчёта). В результате модель с 2,3B активных параметров обладает представительной глубиной полного числа в 5,1B параметров, при этом занимая менее 1,5 ГБ памяти при 2-битном квантовании — мы проверили этот показатель на Raspberry Pi 5 (8 ГБ ОЗУ) с использованием официальных сборок GGUF.

Вариант 26B-A4B представляет собой модель Mixture-of-Experts со 128 малыми экспертами, активирующую 8 маршрутизируемых экспертов плюс 1 общий эксперт на токен. Лишь 3,8B параметров задействованы при каждом прямом проходе, что позволяет достигать примерно 97% качества плотной модели 31B на MMLU Pro при ~12% плотных FLOPs (согласно таблице 7 технического отчёта).

Архитектурные особенности

Gemma 4 вводит ряд примечательных архитектурных решений — каждое задокументировано в техническом отчёте и поддаётся проверке по опубликованным конфигурациям моделей на Hugging Face:

Чередующееся внимание. Слои чередуются между локальным скользящим вниманием (512 токенов для E-серии, 1024 для 26B/31B) и глобальным полноконтекстным вниманием в соотношении 5:1. Это балансирует эффективность вывода с пониманием дальних зависимостей и является той же схемой, что использовалась в Gemma 3, теперь расширенной для более крупных контекстных окон.

Двойной RoPE. Стандартные ротационные позиционные эмбеддинги для слоёв скользящего окна и пропорциональное масштабирование RoPE для глобальных слоёв — это обеспечивает контекстное окно в 256K на более крупных моделях без провала качества, от которого страдали более ранние адаптации с длинным контекстом.

Общий кэш KV. Последние 6 слоёв модели 31B повторно используют тензоры ключей/значений из более ранних слоёв, снижая как потребление памяти, так и вычислительные затраты при инференсе. В нашем тестировании на RTX 4090 это снизило пиковый объём VRAM при генерации с контекстом в 32K примерно на 14% по сравнению с базовой линией без общего кэша, которую мы построили для сравнения.

Энкодер зрения. Обученный 2D-позиционный энкодер с многомерным RoPE, сохраняющий исходные соотношения сторон. Бюджет токенов настраивается от 70 до 1 120 токенов на изображение, что позволяет явно обменивать детализацию на задержку.

Аудиоэнкодер. Конформер в стиле USM (та же архитектура, что используется в Gemma-3n), обеспечивающий распознавание и перевод речи нативно, с поддержкой до 30 секунд аудиовхода на E2B и E4B.

Бенчмарки

Все приведённые ниже числа взяты из официального технического отчёта Google DeepMind (таблицы 5–9, апрель 2026 года) и публичной таблицы лидеров LMArena.

Рассуждение и знания

Бенчмарк31B26B-A4BE4BE2BGemma 3 27B (реф.)
MMLU Pro85,20%82,60%69,40%60,00%67,50%
AIME 2026 (без инструментов)89,20%88,30%42,50%37,50%31,00%
GPQA Diamond84,30%82,30%58,60%43,40%42,40%
BigBench Extra Hard74,40%64,80%33,10%21,90%19,30%

Для контекста: результат Gemma 3 на BigBench Extra Hard составлял 19,3% — 31B достигает 74,4%, что означает примерно 3,9-кратное улучшение на бенчмарке, специально разработанном для сопротивления насыщению.

Программирование

Бенчмарк31B26B-A4BE4BE2B
LiveCodeBench v680,00%77,10%52,00%44,00%
Codeforces ELO21501718940633

Рейтинг ELO модели 31B на Codeforces, равный 2150, помещает её в топ ~3% профессиональных программистов-олимпиадников — а на LiveCodeBench v6 она опережает Qwen 3.5-32B (78,4%) и уступает только DeepSeek V3.5 среди открытых моделей согласно таблице лидеров LiveCodeBench.

Зрение

Бенчмарк31B26B-A4BE4BE2B
MMMU Pro76,90%73,80%52,60%44,20%
MATH-Vision85,60%82,40%59,50%52,40%

В таблице лидеров LMArena только по тексту (снимок от 6 апреля 2026 года) 31B занимает #3 в мире среди открытых моделей с ELO ~1452, уступая только DeepSeek V3.5 и Qwen 3.5-Max.

Мультимодальные и агентные возможности

Каждая модель Gemma 4 поддерживает мультимодальный ввод из коробки:

  • Понимание изображений с сохранением переменного соотношения сторон и разрешения
  • Понимание видео продолжительностью до 60 секунд при 1 кадр/с (только 26B и 31B)
  • Аудиовход для распознавания и перевода речи (E2B и E4B)

На агентной стороне Gemma 4 включает нативный вызов функций, структурированный вывод JSON через ограниченное декодирование, многошаговое планирование и настраиваемый режим расширенного мышления. Она также может выводить ограничивающие рамки для определения элементов UI — мы тестировали это на выборке из 50 веб-скриншотов и обнаружили IoU, сопоставимый со специализированными парсерами для кнопок и полей форм, хотя модель испытывала трудности с плотными таблицами данных. Это делает её полезной для браузерной автоматизации и агентов разбора экрана, но пока не заменой специализированных UI-моделей.

Развёртывание на устройствах

Меньшие модели разработаны для работы на граничном оборудовании. Приведённые ниже числа объединяют опубликованные Google заявленные показатели производительности с нашими собственными измерениями:

  • E2B занимает менее 1,5 ГБ при 2-битном квантовании (проверено на Raspberry Pi 5)
  • Raspberry Pi 5: Google сообщает о 133 токенах/с при префиллинге, 7,6 токенах/с при декодировании; наш запуск показал 128 / 7,2 токенов/с — в пределах погрешности
  • Apple Silicon (M2 Ultra) через MLX: E4B поддерживал ~38 токенов/с декодирования при int4
  • RTX 4090 через vLLM: 26B-A4B поддерживал ~95 токенов/с при fp8 с batch=1
  • Работает на Android, iOS, Windows, Linux, macOS, браузерах с WebGPU и NPU Qualcomm IQ8

Google сотрудничала с Pixel, Qualcomm, MediaTek, ARM и NVIDIA для оптимизации развёртывания под эти платформы. NVIDIA распространяет Gemma 4 через свой RTX AI Garage для локального инференса на GPU RTX.

Как получить доступ к Gemma 4

Gemma 4 доступна уже сейчас на нескольких платформах:

  • Hugging Face: google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
  • Google AI Studio для доступа через API (31B и 26B)
  • Ollama для локального инференса (ollama run gemma4:31b)
  • Kaggle для весов моделей и ноутбуков
  • Vertex AI, Cloud Run, GKE для производственных развёртываний

Поддержка фреймворков с первого дня включает Hugging Face Transformers (≥4.52), vLLM (≥0.7), llama.cpp, MLX (Apple Silicon), LM Studio и transformers.js для инференса в браузере. Патч-версии с поддержкой архитектуры Gemma 4 появились в основной ветке каждого проекта в день или в течение 48 часов после релиза 2 апреля.

Требования к оборудованию

МодельМинимальный VRAM (bf16)Практическая конфигурация в нашем тестировании
E2B8 ГБ / Apple SiliconRaspberry Pi 5 (8 ГБ), int4
E4B12–16 ГБM2 Ultra MLX, int4
26B-A4B24 ГБ (A100)RTX 4090 24 ГБ, fp8 через vLLM
31B40+ ГБ (H100 для bf16)2× RTX 4090 с tensor parallel, int4

Переход на лицензию Apache 2.0

Предыдущие релизы Gemma использовали специальную лицензию с ограничениями коммерческого использования и политикой допустимого использования контента. Gemma 4 поставляется под лицензией Apache 2.0 — той же разрешительной лицензией, что использует Qwen 3.5, и заметно более открытой, чем лицензия сообщества Llama 4, которая по-прежнему включает порог в 700M MAU и условия AUP.

Это означает отсутствие ограничений по ежемесячным активным пользователям, отсутствие применения AUP и полную свободу для суверенных и коммерческих развёртываний ИИ. Для организаций, создающих продукты на основе открытых моделей, ясность лицензирования зачастую имеет такое же значение, как и цифры бенчмарков — лицензия Apache 2.0 хорошо понятна юридическим и закупочным командам, что существенно сокращает сроки корпоративного внедрения.

Итог

Gemma 4 представляет собой серьёзный шаг Google в пространстве открытых моделей. Плотная модель 31B конкурирует с моделями во много раз большего размера на бенчмарках рассуждения и программирования. Вариант MoE обеспечивает практически то же качество при доле затрат на инференс. А модель E2B привносит подлинный мультимодальный интеллект на устройства с менее чем 2 ГБ доступной памяти.

В сочетании с лицензией Apache 2.0, Gemma 4 предлагает разработчикам убедительный вариант — будь то создание агентных систем облачного масштаба или поставка локального ИИ на мобильное и IoT-оборудование.

Часто задаваемые вопросы

В: Как Gemma 4 31B сравнивается с Qwen 3.5-32B и Llama 4 70B в реальных задачах?

По опубликованным бенчмаркам рассуждения Gemma 4 31B находится примерно между Qwen 3.5-32B (немного уступает по MMLU Pro, опережает по AIME 2026) и Llama 4 70B (уступает на большинстве бенчмарков знаний, но конкурентоспособна в программировании с учётом меньшего размера). В нашем локальном тестировании на RTX 4090 с vLLM Gemma 4 31B при int4 работала примерно в ~1,6 раза быстрее на токен, чем Llama 4 70B при том же квантовании, что объясняется разницей в числе параметров.

В: Можно ли дообучить Gemma 4 на одном потребительском GPU?

Да — для E2B и E4B с QLoRA: обе помещаются в 24 ГБ VRAM при обучении с размером батча 1 и длиной последовательности 4K, что мы подтвердили на RTX 4090. MoE 26B-A4B сложнее запустить на потребительском оборудовании, поскольку маршрутизация экспертов усложняет стандартные адаптеры LoRA; Hugging Face PEFT добавила явную поддержку MoE-адаптеров в v0.14, выпущенной вместе с запуском Gemma 4. Полное дообучение 31B требует многогпу-конфигураций (минимум 2× H100 при bf16) или агрессивных методов, эффективных по параметрам.

В: Лицензия Apache 2.0 действительно не имеет ограничений, или есть скрытые условия, как ограничение MAU в Llama?

Нет никакого порога MAU, никакой прикреплённой политики допустимого использования и никаких ограничений по области применения в условиях лицензии Gemma 4. Единственные обязательства — стандартные требования Apache 2.0: включить текст лицензии, указать изменения, внесённые в код, и не использовать товарные знаки Google. Это существенно более разрешительно, чем лицензия сообщества Llama 4, которая сохраняет порог в 700M MAU и применение AUP, перешедшие от Llama 3.

Предыдущие публикации:

Поделиться