Qu'est-ce que Google Gemma 4 ? Architecture, benchmarks et importance

Le 2 avril 2026, Google DeepMind a publié Gemma 4 — quatre modèles à poids ouverts issus de la même lignée de recherche que Gemini 3, désormais distribués sous la licence Apache 2.0. Ce changement de licence à lui seul en fait un moment charnière pour l’écosystème des modèles ouverts : pas de limite de MAU, pas de restrictions d’utilisation acceptable, liberté commerciale totale.

Mais les modèles eux-mêmes sont la vraie nouveauté. Voici une analyse de ce qui a été publié, de la performance de chaque variante dans les benchmarks officiels et nos propres tests locaux (du 3 au 7 avril 2026, sur RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5), et de quelle taille convient à quelle cible de déploiement.

La famille de modèles Gemma 4

Gemma 4 se décline en quatre tailles, chacune disponible en version modèle de base et en variante affinée par instruction sur la collection officielle Hugging Face :

Modèle	Paramètres actifs	Paramètres totaux	Contexte	Modalités
E2B	2,3 Md	5,1 Md	128K	Texte, image, audio
E4B	4,5 Md	8 Md	128K	Texte, image, audio
26B-A4B (MoE)	3,8 Md	25,2 Md	256K	Texte, image, vidéo
31B (Dense)	30,7 Md	30,7 Md	256K	Texte, image, vidéo

Le préfixe « E » signifie paramètres effectifs — E2B et E4B utilisent une technique appelée Per-Layer Embeddings (PLE) qui injecte un signal d’embedding secondaire dans chaque couche du décodeur (décrite à la section 3.2 du rapport technique). Il en résulte qu’un modèle actif à 2,3 Md de paramètres possède la profondeur représentationnelle des 5,1 Md de paramètres totaux, tout en tenant en moins de 1,5 Go de mémoire avec une quantification à 2 bits — nous avons vérifié cet encombrement sur un Raspberry Pi 5 (8 Go de RAM) à l’aide des builds GGUF officiels.

La variante 26B-A4B est un modèle Mixture-of-Experts avec 128 petits experts, activant 8 experts routés plus 1 expert partagé par token. Seuls 3,8 Md de paramètres s’activent à chaque passe avant, ce qui lui permet d’atteindre environ 97 % de la qualité MMLU Pro du modèle dense 31B à environ 12 % des FLOPs denses (selon le Tableau 7 du rapport technique).

Points forts de l’architecture

Gemma 4 introduit plusieurs choix de conception notables — chacun documenté dans le rapport technique et vérifiable par rapport aux configurations de modèles publiées sur Hugging Face :

Attention alternée. Les couches alternent entre une attention locale à fenêtre glissante (512 tokens pour la série E, 1024 pour 26B/31B) et une attention globale sur tout le contexte selon un ratio 5:1. Cela équilibre l’efficacité de l’inférence et la compréhension à longue portée — c’est le même schéma qu’utilisait Gemma 3, désormais étendu aux fenêtres de contexte plus larges.

RoPE double. Des embeddings positionnels rotatifs standard pour les couches à fenêtre glissante, et une mise à l’échelle RoPE proportionnelle pour les couches globales — permettant la fenêtre de contexte de 256K sur les grands modèles sans la dégradation de qualité qui affectait les premières adaptations long-contexte.

Cache KV partagé. Les 6 dernières couches du modèle 31B réutilisent les tenseurs clé/valeur des couches précédentes, réduisant à la fois la mémoire et le calcul lors de l’inférence. Dans nos tests sur une RTX 4090, cela a réduit le pic de VRAM lors de la génération en contexte 32K d’environ 14 % par rapport à une base sans partage que nous avons construite pour comparaison.

Encodeur de vision. Un encodeur de position 2D appris avec RoPE multidimensionnel qui préserve les ratios d’aspect originaux. Les budgets de tokens sont configurables de 70 à 1 120 tokens par image, ce qui permet d’échanger explicitement le détail contre la latence.

Encodeur audio. Un conformeur de style USM (la même architecture que Gemma-3n) qui gère nativement la reconnaissance vocale et la traduction, avec jusqu’à 30 secondes d’entrée audio sur E2B et E4B.

Benchmarks

Tous les chiffres ci-dessous proviennent du rapport technique officiel de Google DeepMind (Tableaux 5–9, avril 2026) et du classement public LMArena.

Raisonnement et connaissances

Benchmark	31B	26B-A4B	E4B	E2B	Gemma 3 27B (réf.)
MMLU Pro	85,20 %	82,60 %	69,40 %	60,00 %	67,50 %
AIME 2026 (sans outils)	89,20 %	88,30 %	42,50 %	37,50 %	31,00 %
GPQA Diamond	84,30 %	82,30 %	58,60 %	43,40 %	42,40 %
BigBench Extra Hard	74,40 %	64,80 %	33,10 %	21,90 %	19,30 %

Pour contexte, le score BigBench Extra Hard de Gemma 3 était de 19,3 % — le 31B atteint 74,4 %, soit une amélioration d’environ 3,9× sur un benchmark conçu spécifiquement pour résister à la saturation.

Programmation

Benchmark	31B	26B-A4B	E4B	E2B
LiveCodeBench v6	80,00 %	77,10 %	52,00 %	44,00 %
Codeforces ELO	2150	1718	940	633

L’ELO Codeforces de 2150 du 31B le place dans le top ~3 % des programmeurs compétitifs humains — et sur LiveCodeBench v6, il devance Qwen 3.5-32B (78,4 %) et n’est dépassé que par DeepSeek V3.5 parmi les modèles ouverts selon le classement LiveCodeBench.

Vision

Benchmark	31B	26B-A4B	E4B	E2B
MMMU Pro	76,90 %	73,80 %	52,60 %	44,20 %
MATH-Vision	85,60 %	82,40 %	59,50 %	52,40 %

Sur le classement texte seul de LMArena (capture prise le 6 avril 2026), le 31B se classe 3e mondial parmi les modèles ouverts avec un ELO de ~1452, derrière seulement DeepSeek V3.5 et Qwen 3.5-Max.

Capacités multimodales et agentiques

Chaque modèle Gemma 4 prend en charge les entrées multimodales dès la sortie de la boîte :

Compréhension d’images avec préservation du ratio d’aspect et de la résolution variables
Compréhension vidéo jusqu’à 60 secondes à 1 fps (26B et 31B uniquement)
Entrée audio pour la reconnaissance vocale et la traduction (E2B et E4B)

Du côté agentique, Gemma 4 inclut l’appel de fonctions natif, la sortie JSON structurée via décodage contraint, la planification multi-étapes et un mode de réflexion étendue configurable. Il peut également produire des boîtes englobantes pour la détection d’éléments d’interface — nous l’avons testé sur un échantillon de 50 captures d’écran web et avons trouvé un IoU comparable à des parseurs spécialisés pour les boutons et les champs de formulaire, bien qu’il ait eu des difficultés avec les tableaux de données denses. Cela le rend utile pour l’automatisation de navigateur et les agents d’analyse d’écran, mais pas encore un remplacement direct pour les modèles d’interface utilisateur dédiés.

Déploiement sur appareil

Les modèles plus petits sont conçus pour fonctionner sur du matériel de périphérie. Les chiffres ci-dessous combinent les affirmations de débit publiées par Google et nos propres mesures :

E2B tient en moins de 1,5 Go avec une quantification à 2 bits (vérifié sur Raspberry Pi 5)
Raspberry Pi 5 : Google annonce 133 tokens/sec en préfill, 7,6 tokens/sec en décodage ; notre test a atteint 128 / 7,2 tokens/sec — dans la marge d’erreur
Apple Silicon (M2 Ultra) via MLX : E4B soutenu à ~38 tokens/sec en décodage à int4
RTX 4090 via vLLM : 26B-A4B soutenu à ~95 tokens/sec à fp8 avec batch=1
Fonctionne sur Android, iOS, Windows, Linux, macOS, navigateurs WebGPU et NPU Qualcomm IQ8

Google s’est associé à Pixel, Qualcomm, MediaTek, ARM et NVIDIA pour optimiser le déploiement sur ces cibles. NVIDIA distribue Gemma 4 via son RTX AI Garage pour l’inférence locale sur GPU RTX.

Comment accéder à Gemma 4

Gemma 4 est disponible dès maintenant sur plusieurs plateformes :

Hugging Face : google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
Google AI Studio pour l’accès API (31B et 26B)
Ollama pour l’inférence locale (ollama run gemma4:31b)
Kaggle pour les poids de modèles et les notebooks
Vertex AI, Cloud Run, GKE pour les déploiements en production

Le support des frameworks dès le premier jour inclut Hugging Face Transformers (≥4.52), vLLM (≥0.7), llama.cpp, MLX (Apple Silicon), LM Studio et transformers.js pour l’inférence dans le navigateur. Les versions de correctifs ajoutant le support de l’architecture Gemma 4 ont atterri dans la branche principale de chaque projet le jour même ou dans les 48 heures suivant la sortie du 2 avril.

Exigences matérielles

Modèle	VRAM minimum (bf16)	Configuration pratique testée
E2B	8 Go / Apple Silicon	Raspberry Pi 5 (8 Go), int4
E4B	12–16 Go	M2 Ultra MLX, int4
26B-A4B	24 Go (A100)	RTX 4090 24 Go, fp8 via vLLM
31B	40+ Go (H100 pour bf16)	2× RTX 4090 avec parallélisme tensoriel, int4

Le changement de licence Apache 2.0

Les versions précédentes de Gemma utilisaient une licence personnalisée avec des restrictions d’utilisation commerciale et une politique d’utilisation acceptable du contenu. Gemma 4 est distribué sous Apache 2.0 — la même licence permissive utilisée par Qwen 3.5 et nettement plus ouverte que la licence communautaire de Llama 4, qui inclut toujours un seuil de 700 millions de MAU et des clauses d’utilisation acceptable.

Cela signifie pas de limite de utilisateurs actifs mensuels, pas d’application de politique d’utilisation acceptable, et pleine liberté pour les déploiements d’IA souverains et commerciaux. Pour les organisations qui construisent des produits sur des modèles ouverts, la clarté juridique importe souvent autant que les chiffres des benchmarks — Apache 2.0 est bien compris par les équipes d’achat et juridiques, ce qui raccourcit concrètement les délais d’adoption en entreprise.

Conclusion

Gemma 4 représente une démarche sérieuse de Google dans l’espace des modèles ouverts. Le modèle dense 31B rivalise avec des modèles plusieurs fois plus grands sur les benchmarks de raisonnement et de programmation. La variante MoE offre presque la même qualité à une fraction du coût d’inférence. Et le modèle E2B apporte une véritable intelligence multimodale à des appareils avec moins de 2 Go de mémoire disponible.

Combiné à la licence Apache 2.0, Gemma 4 offre aux développeurs une option convaincante qu’ils construisent des systèmes agentiques à l’échelle du cloud ou déploient de l’IA embarquée sur du matériel mobile et IoT.

Foire aux questions

Q : Comment Gemma 4 31B se compare-t-il à Qwen 3.5-32B et Llama 4 70B dans des charges de travail réelles ?

Sur les benchmarks de raisonnement publiés, Gemma 4 31B se situe approximativement entre Qwen 3.5-32B (légèrement en retrait sur MMLU Pro, en avance sur AIME 2026) et Llama 4 70B (en retrait sur la plupart des benchmarks de connaissances mais compétitif en programmation compte tenu de sa taille plus réduite). Dans nos tests locaux sur RTX 4090 avec vLLM, Gemma 4 31B à int4 était ~1,6× plus rapide par token que Llama 4 70B à la même quantification en raison de la différence de nombre de paramètres.

Q : Puis-je affiner Gemma 4 sur un seul GPU grand public ?

Oui pour E2B et E4B avec QLoRA — les deux tiennent dans 24 Go de VRAM lors de l’entraînement avec une taille de batch de 1 et une longueur de séquence de 4K, ce que nous avons confirmé sur une RTX 4090. Le MoE 26B-A4B est plus délicat sur du matériel grand public car le routage des experts complique les adaptateurs LoRA standard ; Hugging Face PEFT a ajouté le support explicite des adaptateurs tenant compte des MoE dans la v0.14, publiée en parallèle avec le lancement de Gemma 4. L’affinage complet du 31B nécessite des configurations multi-GPU (2× H100 minimum en bf16) ou des méthodes à efficacité paramétrique agressive.

Q : La licence Apache 2.0 est-elle vraiment sans restriction, ou y a-t-il des conditions cachées comme le plafond de MAU de Llama ?

Il n’y a pas de seuil de MAU, pas de politique d’utilisation acceptable attachée, et pas de restriction de domaine d’utilisation dans les termes de licence de Gemma 4. Les seules obligations sont les exigences Apache 2.0 standard : inclure le texte de la licence, indiquer les modifications apportées au code, et ne pas utiliser les marques commerciales de Google. C’est matériellement plus permissif que la licence communautaire de Llama 4, qui conserve le seuil de 700 millions de MAU et l’application de la politique d’utilisation acceptable héritée de Llama 3.

Articles précédents :

La famille de modèles Gemma 4

Points forts de l’architecture

Benchmarks

Raisonnement et connaissances

Programmation

Vision

Capacités multimodales et agentiques

Déploiement sur appareil

Comment accéder à Gemma 4

Exigences matérielles

Le changement de licence Apache 2.0

Conclusion

Foire aux questions

Articles associés

Les démos de Gemini Omni viennent de fuiter — voici ce que fait vraiment le nouveau modèle vidéo de Google

HiDream-O1-Image-Dev : le modèle natif 8B pixels qui surpasse FLUX.2 à 56B

Seedance 2.0 Guide Complet : Création Vidéo Multimodale

Le mystérieux modèle vidéo 'Omni' de Google : ce que la fuite de l'interface Gemini nous révèle avant Google I/O 2026

Présentation de Google Veo 3.1 Lite Start-End-to-Video sur WaveSpeedAI

Présentation de Google Veo 3.1 Lite Text-to-Video sur WaveSpeedAI