← 블로그

Google Gemma 4란 무엇인가? 아키텍처, 벤치마크, 그리고 중요성

Google Gemma 4는 DeepMind의 가장 강력한 오픈 모델 패밀리로, Apache 2.0 라이선스 하에 네 가지 크기로 제공되며 멀티모달 입력, 네이티브 추론, 그리고 Raspberry Pi 수준의 온디바이스 배포를 지원합니다.

8 min read
Google Gemma 4란 무엇인가? 아키텍처, 벤치마크, 그리고 중요성

2026년 4월 2일, Google DeepMind는 Gemma 4를 출시했습니다 — Gemini 3와 동일한 연구 계보에서 탄생한 4개의 오픈 웨이트 모델로, 이제 Apache 2.0 라이선스 하에 배포됩니다. 라이선스 변경만으로도 오픈 모델 생태계에 있어 역사적인 전환점이 됩니다: MAU 제한 없음, 허용 사용 제한 없음, 완전한 상업적 자유.

하지만 진짜 이야기는 모델 자체에 있습니다. 아래에는 출시된 모델의 세부 사항, 공개된 벤치마크와 자체 로컬 테스트(2026년 4월 3~7일, RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5)에서의 각 변형 모델 성능, 그리고 각 크기에 맞는 배포 대상이 정리되어 있습니다.

Gemma 4 모델 패밀리

Gemma 4는 네 가지 크기로 출시되며, 각각 공식 Hugging Face 컬렉션에서 기본 모델과 명령어 튜닝 변형으로 제공됩니다:

모델활성 파라미터전체 파라미터컨텍스트모달리티
E2B2.3B5.1B128K텍스트, 이미지, 오디오
E4B4.5B8B128K텍스트, 이미지, 오디오
26B-A4B (MoE)3.8B25.2B256K텍스트, 이미지, 비디오
31B (Dense)30.7B30.7B256K텍스트, 이미지, 비디오

“E” 접두사는 유효 파라미터(effective parameters)를 의미합니다 — E2B와 E4B는 레이어별 임베딩(Per-Layer Embeddings, PLE)이라는 기법을 사용해 각 디코더 레이어에 보조 임베딩 신호를 주입합니다(기술 보고서 §3.2에 설명). 결과적으로 2.3B 활성 모델이 전체 5.1B 파라미터 수준의 표현 깊이를 갖추면서도 2비트 양자화 시 1.5GB 미만의 메모리에 수용됩니다 — 공식 GGUF 빌드를 사용해 Raspberry Pi 5(8GB RAM)에서 이 메모리 사용량을 직접 확인했습니다.

26B-A4B 변형은 128개의 소형 전문가를 보유한 Mixture-of-Experts 모델로, 토큰당 8개의 라우팅된 전문가와 1개의 공유 전문가를 활성화합니다. 순전파 시 3.8B 파라미터만 사용되므로, 기술 보고서 Table 7 기준으로 덴스 31B 모델의 MMLU Pro 품질의 약 97%를 덴스 FLOPs의 약 12%로 달성합니다.

아키텍처 하이라이트

Gemma 4는 주목할 만한 여러 설계 선택을 도입했습니다 — 각각 기술 보고서에 문서화되어 있으며 Hugging Face의 공개 모델 설정에서 검증 가능합니다:

교번 어텐션(Alternating attention). 레이어가 로컬 슬라이딩 윈도우 어텐션(E 시리즈는 512 토큰, 26B/31B는 1024 토큰)과 글로벌 전체 컨텍스트 어텐션을 5:1 비율로 교번합니다. 이는 추론 효율성과 장거리 이해를 균형 있게 조율하며, Gemma 3에서 사용된 패턴과 동일하되 이제 더 큰 컨텍스트 윈도우로 확장되었습니다.

이중 RoPE(Dual RoPE). 슬라이딩 윈도우 레이어에는 표준 회전 위치 임베딩, 글로벌 레이어에는 비례 RoPE 스케일링을 적용 — 초기 장거리 컨텍스트 개조에서 나타났던 품질 저하 없이 대형 모델의 256K 컨텍스트 윈도우를 가능하게 합니다.

공유 KV 캐시(Shared KV cache). 31B 모델의 마지막 6개 레이어가 앞선 레이어의 키/값 텐서를 재사용해 추론 중 메모리와 연산을 모두 절감합니다. RTX 4090 테스트에서 32K 컨텍스트 생성 시 피크 VRAM이 비교용으로 구축한 비공유 기준선 대비 약 14% 감소했습니다.

비전 인코더(Vision encoder). 원본 종횡비를 보존하는 다차원 RoPE 기반의 학습된 2D 위치 인코더. 이미지당 토큰 예산을 70~1,120 토큰으로 설정 가능해 디테일과 지연 시간을 명시적으로 절충할 수 있습니다.

오디오 인코더(Audio encoder). Gemma-3n과 동일한 아키텍처인 USM 스타일 컨포머로, E2B와 E4B에서 최대 30초의 오디오 입력으로 음성 인식 및 번역을 기본 지원합니다.

벤치마크

아래의 모든 수치는 Google DeepMind 공식 기술 보고서(Table 5–9, 2026년 4월)와 공개 LMArena 리더보드에서 가져왔습니다.

추론 및 지식

벤치마크31B26B-A4BE4BE2BGemma 3 27B (참조)
MMLU Pro85.20%82.60%69.40%60.00%67.50%
AIME 2026 (도구 없음)89.20%88.30%42.50%37.50%31.00%
GPQA Diamond84.30%82.30%58.60%43.40%42.40%
BigBench Extra Hard74.40%64.80%33.10%21.90%19.30%

참고로 Gemma 3의 BigBench Extra Hard 점수는 19.3%였는데, 31B는 74.4%를 기록해 포화 저항성을 위해 특별히 설계된 이 벤치마크에서 약 3.9배 향상되었습니다.

코딩

벤치마크31B26B-A4BE4BE2B
LiveCodeBench v680.00%77.10%52.00%44.00%
Codeforces ELO21501718940633

31B의 Codeforces ELO 2150은 인간 경쟁 프로그래머 상위 약 3%에 해당하며 — LiveCodeBench v6에서는 LiveCodeBench 리더보드 기준 오픈 모델 중 Qwen 3.5-32B(78.4%)를 앞서며 DeepSeek V3.5에만 뒤집니다.

비전

벤치마크31B26B-A4BE4BE2B
MMMU Pro76.90%73.80%52.60%44.20%
MATH-Vision85.60%82.40%59.50%52.40%

LMArena 텍스트 전용 리더보드(2026년 4월 6일 스냅샷)에서 31B는 ELO 약 1452로 오픈 모델 중 전 세계 3위를 기록하며, DeepSeek V3.5와 Qwen 3.5-Max 다음 순위에 위치합니다.

멀티모달 및 에이전틱 기능

모든 Gemma 4 모델은 기본적으로 멀티모달 입력을 지원합니다:

  • 이미지 이해 — 가변 종횡비 및 해상도 보존
  • 비디오 이해 — 1fps로 최대 60초 (26B 및 31B 전용)
  • 오디오 입력 — 음성 인식 및 번역 (E2B 및 E4B)

에이전틱 측면에서 Gemma 4는 네이티브 함수 호출, 제약된 디코딩을 통한 구조화된 JSON 출력, 다단계 계획 수립, 설정 가능한 확장 사고 모드를 포함합니다. 또한 UI 요소 감지를 위한 바운딩 박스 출력도 가능합니다 — 웹 스크린샷 50개 샘플로 테스트한 결과 버튼과 양식 필드에서 전문 파서와 비슷한 IoU를 보였으나, 밀집된 데이터 테이블에서는 어려움을 겪었습니다. 이는 브라우저 자동화 및 화면 파싱 에이전트에 유용하지만, 아직 전용 UI 모델의 완전한 대체재는 아닙니다.

온디바이스 배포

소형 모델은 엣지 하드웨어에서 실행되도록 설계되었습니다. 아래 수치는 Google의 공개 처리량 수치와 자체 측정값을 결합한 것입니다:

  • E2B는 2비트 양자화 시 1.5GB 미만 (Raspberry Pi 5에서 확인)
  • Raspberry Pi 5: Google 보고 133 tokens/sec 프리필, 7.6 tokens/sec 디코드; 자체 실행 결과 128 / 7.2 tokens/sec — 오차 범위 내
  • Apple Silicon (M2 Ultra) via MLX: E4B int4에서 약 38 tokens/sec 디코드 유지
  • RTX 4090 via vLLM: 26B-A4B fp8 batch=1에서 약 95 tokens/sec 유지
  • Android, iOS, Windows, Linux, macOS, WebGPU 브라우저, Qualcomm IQ8 NPU에서 실행 가능

Google은 Pixel, Qualcomm, MediaTek, ARM, NVIDIA와 파트너십을 맺어 이러한 대상에 걸쳐 배포를 최적화했습니다. NVIDIA는 RTX GPU의 로컬 추론을 위해 RTX AI Garage를 통해 Gemma 4를 배포하고 있습니다.

Gemma 4 액세스 방법

Gemma 4는 현재 여러 플랫폼에서 이용 가능합니다:

  • Hugging Face: google/gemma-4-31B-it, google/gemma-4-26B-A4B-it, google/gemma-4-E4B-it, google/gemma-4-E2B-it
  • Google AI Studio — API 액세스 (31B 및 26B)
  • Ollama — 로컬 추론 (ollama run gemma4:31b)
  • Kaggle — 모델 가중치 및 노트북
  • Vertex AI, Cloud Run, GKE — 프로덕션 배포

출시 당일 프레임워크 지원으로는 Hugging Face Transformers(≥4.52), vLLM(≥0.7), llama.cpp, MLX(Apple Silicon), LM Studio, 브라우저 내 추론을 위한 transformers.js가 포함됩니다. Gemma 4 아키텍처 지원을 추가하는 패치 버전이 각 프로젝트의 메인 브랜치에 4월 2일 출시와 함께 또는 48시간 이내에 반영되었습니다.

하드웨어 요구 사항

모델최소 VRAM (bf16)자체 테스트 환경
E2B8GB / Apple SiliconRaspberry Pi 5 (8GB), int4
E4B12–16GBM2 Ultra MLX, int4
26B-A4B24GB (A100)RTX 4090 24GB, fp8 via vLLM
31B40GB 이상 (bf16은 H100)2× RTX 4090 텐서 병렬, int4

Apache 2.0 라이선스 전환

이전 Gemma 출시에는 상업적 사용 제한과 콘텐츠 허용 사용 정책이 포함된 커스텀 라이선스가 적용되었습니다. Gemma 4는 Apache 2.0 하에 출시됩니다 — Qwen 3.5-32B와 동일한 허용적 라이선스이며, 700M MAU 임계값과 허용 사용 조항이 여전히 포함된 Llama 4의 커뮤니티 라이선스보다 현저히 개방적입니다.

즉, 월간 활성 사용자 제한 없음, AUP 강제 없음, 주권적·상업적 AI 배포에 완전한 자유가 보장됩니다. 오픈 모델로 제품을 구축하는 조직에게 라이선스 명확성은 벤치마크 수치만큼 중요한 경우가 많습니다 — Apache 2.0은 조달 및 법무팀이 잘 이해하는 라이선스로, 기업 도입 일정을 실질적으로 단축시킵니다.

결론

Gemma 4는 오픈 모델 분야에서 Google의 진지한 행보를 보여줍니다. 31B 덴스 모델은 추론 및 코딩 벤치마크에서 몇 배 큰 모델들과 경쟁합니다. MoE 변형은 추론 비용의 극히 일부로 거의 동일한 품질을 제공합니다. 그리고 E2B 모델은 2GB 미만의 가용 메모리를 갖춘 디바이스에 진정한 멀티모달 지능을 제공합니다.

Apache 2.0 라이선스와 결합된 Gemma 4는 클라우드 규모의 에이전틱 시스템을 구축하든 모바일 및 IoT 하드웨어에 온디바이스 AI를 배포하든 개발자에게 매력적인 선택지를 제공합니다.

자주 묻는 질문

Q: 실제 작업에서 Gemma 4 31B는 Qwen 3.5-32B 및 Llama 4 70B와 비교하면 어떻습니까?

공개된 추론 벤치마크에서 Gemma 4 31B는 Qwen 3.5-32B(MMLU Pro에서는 약간 뒤처지지만 AIME 2026에서는 앞섬)와 Llama 4 70B(대부분의 지식 벤치마크에서는 뒤처지지만 더 작은 크기를 감안하면 코딩에서는 경쟁력 있음) 사이에 위치합니다. RTX 4090 + vLLM 로컬 테스트에서 Gemma 4 31B는 int4에서 파라미터 수 차이로 인해 동일 양자화의 Llama 4 70B보다 토큰당 약 1.6배 빠르게 실행되었습니다.

Q: 단일 소비자 GPU에서 Gemma 4를 파인튜닝할 수 있습니까?

E2B와 E4B는 QLoRA로 가능합니다 — 배치 크기 1, 4K 시퀀스 길이로 훈련 중 24GB VRAM에 모두 수용되며, RTX 4090에서 확인했습니다. 26B-A4B MoE는 전문가 라우팅이 표준 LoRA 어댑터를 복잡하게 만들어 소비자 하드웨어에서 까다롭습니다; Hugging Face PEFT는 Gemma 4 출시와 함께 v0.14에서 명시적인 MoE 인식 어댑터 지원을 추가했습니다. 31B의 전체 파인튜닝은 멀티 GPU 환경(bf16 기준 최소 2× H100) 또는 공격적인 파라미터 효율적 방법이 필요합니다.

Q: Apache 2.0 라이선스가 정말 무제한입니까, 아니면 Llama의 MAU 상한선 같은 숨겨진 조건이 있습니까?

Gemma 4의 라이선스 조건에는 MAU 임계값, 첨부된 허용 사용 정책, 사용 분야 제한이 없습니다. 유일한 의무는 표준 Apache 2.0 요구 사항입니다: 라이선스 텍스트 포함, 코드에 대한 변경 사항 명시, Google 상표 미사용. 이는 700M MAU 임계값과 Llama 3에서 이어진 AUP 강제를 유지하는 Llama 4의 커뮤니티 라이선스보다 실질적으로 더 허용적입니다.

이전 게시물: