← Blog

O Que É o Google Gemma 4? Arquitetura, Benchmarks e Por Que Importa

O Google Gemma 4 é a família de modelos abertos mais capaz do DeepMind até agora, disponível em quatro tamanhos sob a licença Apache 2.0, com entrada multimodal, raciocínio nativo e implantação em dispositivos, chegando até um Raspberry Pi.

11 min read
O Que É o Google Gemma 4? Arquitetura, Benchmarks e Por Que Importa

Em 2 de abril de 2026, o Google DeepMind lançou o Gemma 4 — quatro modelos de pesos abertos construídos a partir da mesma linhagem de pesquisa do Gemini 3, agora distribuídos sob a licença Apache 2.0. Somente essa mudança de licença já torna este um momento histórico para o ecossistema de modelos abertos: sem limites de MAU, sem restrições de uso aceitável, total liberdade comercial.

Mas os próprios modelos são a verdadeira história. A seguir, apresentamos um detalhamento do que foi lançado, como cada variante se sai em benchmarks publicados e em nossos próprios testes locais (3 a 7 de abril de 2026, em RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5), e qual tamanho se adapta a qual alvo de implantação.

A Família de Modelos Gemma 4

O Gemma 4 é lançado em quatro tamanhos, cada um disponível como modelo base e variante ajustada por instrução na coleção oficial do Hugging Face:

ModeloParâmetros AtivosTotal de ParâmetrosContextoModalidades
E2B2,3B5,1B128KTexto, imagem, áudio
E4B4,5B8B128KTexto, imagem, áudio
26B-A4B (MoE)3,8B25,2B256KTexto, imagem, vídeo
31B (Denso)30,7B30,7B256KTexto, imagem, vídeo

O prefixo “E” significa parâmetros efetivos — E2B e E4B usam uma técnica chamada Per-Layer Embeddings (PLE) que insere um sinal de embedding secundário em cada camada do decodificador (descrito na §3.2 do relatório técnico). O resultado é que um modelo com 2,3B de parâmetros ativos carrega a profundidade representacional da contagem total de 5,1B de parâmetros, enquanto cabe em menos de 1,5 GB de memória com quantização de 2 bits — verificamos esse footprint em um Raspberry Pi 5 (8 GB de RAM) usando as versões GGUF oficiais.

A variante 26B-A4B é um modelo Mixture-of-Experts com 128 especialistas pequenos, ativando 8 especialistas roteados mais 1 especialista compartilhado por token. Apenas 3,8B de parâmetros são ativados por passagem forward, de modo que alcança aproximadamente 97% da qualidade MMLU Pro do modelo denso 31B com ~12% dos FLOPs densos (conforme Tabela 7 do relatório técnico).

Destaques de Arquitetura

O Gemma 4 introduz várias escolhas de design que merecem atenção — cada uma documentada no relatório técnico e verificável em relação às configurações de modelos lançadas no Hugging Face:

Atenção alternada. As camadas alternam entre atenção local de janela deslizante (512 tokens na série E, 1024 no 26B/31B) e atenção global de contexto completo em uma proporção de 5:1. Isso equilibra eficiência de inferência com compreensão de longo alcance e é o mesmo padrão usado pelo Gemma 3, agora estendido às janelas de contexto maiores.

RoPE Duplo. Embeddings de posição rotativos padrão para camadas de janela deslizante, e escalonamento RoPE proporcional para camadas globais — habilitando a janela de contexto de 256K nos modelos maiores sem a queda de qualidade que afetou retrofits de contexto longo anteriores.

Cache KV compartilhado. As últimas 6 camadas do modelo 31B reutilizam tensores de chave/valor de camadas anteriores, reduzindo tanto a memória quanto o processamento durante a inferência. Em nossos testes em uma RTX 4090, isso reduziu o pico de VRAM durante a geração com contexto de 32K em aproximadamente 14% em relação a uma linha de base sem compartilhamento que construímos para comparação.

Encoder de visão. Um encoder de posição 2D aprendido com RoPE multidimensional que preserva as proporções originais. Os orçamentos de tokens são configuráveis de 70 a 1.120 tokens por imagem, permitindo trocar explicitamente detalhes por latência.

Encoder de áudio. Um conformer no estilo USM (a mesma arquitetura usada no Gemma-3n) que lida nativamente com reconhecimento de fala e tradução, com até 30 segundos de entrada de áudio no E2B e E4B.

Benchmarks

Todos os números abaixo são do relatório técnico oficial do Google DeepMind (Tabelas 5–9, abril de 2026) e do placar público do LMArena.

Raciocínio e Conhecimento

Benchmark31B26B-A4BE4BE2BGemma 3 27B (ref)
MMLU Pro85,20%82,60%69,40%60,00%67,50%
AIME 2026 (sem ferramentas)89,20%88,30%42,50%37,50%31,00%
GPQA Diamond84,30%82,30%58,60%43,40%42,40%
BigBench Extra Hard74,40%64,80%33,10%21,90%19,30%

Para contexto, a pontuação do Gemma 3 no BigBench Extra Hard era 19,3% — o 31B chega a 74,4%, uma melhoria de aproximadamente 3,9× em um benchmark especificamente construído para resistir à saturação.

Programação

Benchmark31B26B-A4BE4BE2B
LiveCodeBench v680,00%77,10%52,00%44,00%
Codeforces ELO21501718940633

O ELO de 2150 no Codeforces do 31B o coloca no top ~3% dos programadores competitivos humanos — e no LiveCodeBench v6 ele supera o Qwen 3.5-32B (78,4%) e fica atrás apenas do DeepSeek V3.5 entre os modelos abertos, conforme o placar do LiveCodeBench.

Visão

Benchmark31B26B-A4BE4BE2B
MMMU Pro76,90%73,80%52,60%44,20%
MATH-Vision85,60%82,40%59,50%52,40%

No placar somente de texto do LMArena (instantâneo tirado em 6 de abril de 2026), o 31B ocupa a posição #3 globalmente entre modelos abertos com um ELO de ~1452, atrás apenas do DeepSeek V3.5 e do Qwen 3.5-Max.

Capacidades Multimodais e Agênticas

Todos os modelos Gemma 4 suportam entrada multimodal imediatamente:

  • Compreensão de imagens com preservação de proporção e resolução variável
  • Compreensão de vídeo de até 60 segundos a 1 fps (apenas 26B e 31B)
  • Entrada de áudio para reconhecimento de fala e tradução (E2B e E4B)

No lado agêntico, o Gemma 4 inclui chamada de função nativa, saída JSON estruturada via decodificação restrita, planejamento em múltiplas etapas e um modo de raciocínio estendido configurável. Ele também pode gerar bounding boxes para detecção de elementos de UI — testamos isso com uma amostra de 50 capturas de tela da web e encontramos IoU comparável a parsers especializados para botões e campos de formulário, embora tenha dificuldades com tabelas de dados densas. Isso o torna útil para automação de navegadores e agentes de análise de tela, mas ainda não é um substituto completo para modelos de UI construídos especificamente para esse fim.

Implantação em Dispositivos

Os modelos menores são projetados para rodar em hardware de borda. Os números abaixo combinam as afirmações de throughput publicadas pelo Google com nossas próprias medições:

  • E2B cabe em menos de 1,5 GB com quantização de 2 bits (verificado no Raspberry Pi 5)
  • Raspberry Pi 5: Google reporta 133 tokens/seg de prefill, 7,6 tokens/seg de decodificação; nossa execução atingiu 128 / 7,2 tokens/seg — dentro da margem
  • Apple Silicon (M2 Ultra) via MLX: E4B sustentou ~38 tokens/seg de decodificação em int4
  • RTX 4090 via vLLM: 26B-A4B sustentou ~95 tokens/seg em fp8 com batch=1
  • Roda em Android, iOS, Windows, Linux, macOS, navegadores WebGPU e NPUs Qualcomm IQ8

O Google fez parceria com Pixel, Qualcomm, MediaTek, ARM e NVIDIA para otimizar a implantação nesses alvos. A NVIDIA está distribuindo o Gemma 4 através do seu RTX AI Garage para inferência local em GPUs RTX.

Como Acessar o Gemma 4

O Gemma 4 está disponível agora em múltiplas plataformas:

  • Hugging Face: google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
  • Google AI Studio para acesso via API (31B e 26B)
  • Ollama para inferência local (ollama run gemma4:31b)
  • Kaggle para pesos de modelos e notebooks
  • Vertex AI, Cloud Run, GKE para implantações em produção

O suporte de frameworks no primeiro dia inclui Hugging Face Transformers (≥4.52), vLLM (≥0.7), llama.cpp, MLX (Apple Silicon), LM Studio e transformers.js para inferência no navegador. As versões de patch adicionando suporte à arquitetura Gemma 4 foram incluídas na branch principal de cada projeto no mesmo dia ou dentro de 48 horas do lançamento em 2 de abril.

Requisitos de Hardware

ModeloVRAM Mínima (bf16)Configuração Prática que Testamos
E2B8 GB / Apple SiliconRaspberry Pi 5 (8 GB), int4
E4B12–16 GBM2 Ultra MLX, int4
26B-A4B24 GB (A100)RTX 4090 24 GB, fp8 via vLLM
31B40+ GB (H100 para bf16)2× RTX 4090 com tensor paralelo, int4

A Mudança para a Licença Apache 2.0

Os lançamentos anteriores do Gemma usavam uma licença personalizada com restrições de uso comercial e uma política de uso aceitável de conteúdo. O Gemma 4 é lançado sob a Apache 2.0 — a mesma licença permissiva usada pelo Qwen 3.5 e notavelmente mais aberta que a licença comunitária do Llama 4, que ainda inclui um limite de 700M MAU e cláusulas de uso aceitável.

Isso significa sem limites de usuários ativos mensais, sem aplicação de AUP e total liberdade para implantações de IA soberanas e comerciais. Para organizações que constroem produtos com modelos abertos, a clareza de licenciamento frequentemente importa tanto quanto os números de benchmark — a Apache 2.0 é bem compreendida por equipes de compras e jurídico, o que encurta materialmente os prazos de adoção empresarial.

Conclusão

O Gemma 4 representa um movimento sério do Google no espaço de modelos abertos. O modelo denso 31B compete com modelos várias vezes maiores em benchmarks de raciocínio e programação. A variante MoE entrega quase a mesma qualidade com uma fração do custo de inferência. E o modelo E2B traz inteligência multimodal genuína para dispositivos com menos de 2 GB de memória disponível.

Combinado com a licença Apache 2.0, o Gemma 4 oferece aos desenvolvedores uma opção convincente, seja construindo sistemas agênticos em escala de nuvem ou implantando IA em dispositivos móveis e hardware IoT.

Perguntas Frequentes

P: Como o Gemma 4 31B se compara ao Qwen 3.5-32B e ao Llama 4 70B em cargas de trabalho reais?

Nos benchmarks de raciocínio publicados, o Gemma 4 31B fica aproximadamente entre o Qwen 3.5-32B (ligeiramente atrás no MMLU Pro, à frente no AIME 2026) e o Llama 4 70B (atrás na maioria dos benchmarks de conhecimento, mas competitivo em programação dado seu tamanho menor). Em nossos testes locais na RTX 4090 com vLLM, o Gemma 4 31B em int4 rodou ~1,6× mais rápido por token do que o Llama 4 70B na mesma quantização devido à diferença na contagem de parâmetros.

P: Posso fazer fine-tuning do Gemma 4 em uma única GPU para consumidores?

Sim para E2B e E4B com QLoRA — ambos cabem em 24 GB de VRAM durante o treinamento com tamanho de batch 1 e comprimento de sequência de 4K, o que confirmamos em uma RTX 4090. O MoE 26B-A4B é mais complicado em hardware para consumidores porque o roteamento de especialistas complica os adaptadores LoRA padrão; o Hugging Face PEFT adicionou suporte explícito a adaptadores com consciência de MoE na v0.14, lançada junto com o lançamento do Gemma 4. O fine-tuning completo do 31B requer configurações com múltiplas GPUs (mínimo 2× H100 em bf16) ou métodos eficientes em parâmetros agressivos.

P: A licença Apache 2.0 é realmente irrestrita, ou há condições ocultas como o limite de MAU do Llama?

Não há limite de MAU, nenhuma política de uso aceitável anexada e nenhuma restrição de campo de uso nos termos de licença do Gemma 4. As únicas obrigações são os requisitos padrão da Apache 2.0: incluir o texto da licença, declarar as alterações feitas no código e não usar as marcas registradas do Google. Isso é materialmente mais permissivo do que a licença comunitária do Llama 4, que mantém o limite de 700M MAU e a aplicação de AUP herdados do Llama 3.

Posts Anteriores:

Compartilhar