Google Gemma 4とは?アーキテクチャ、ベンチマーク、そしてその重要性
Google Gemma 4は、DeepMindがこれまでに発表した中で最も高性能なオープンモデルファミリーです。Apache 2.0ライセンスのもと4つのサイズで提供され、マルチモーダル入力、ネイティブ推論、Raspberry Piへのオンデバイスデプロイをサポートしています。
2026年4月2日、Google DeepMindはGemma 4をリリースしました。これはGemini 3と同じ研究系譜から生まれた4つのオープンウェイトモデルであり、今回はApache 2.0ライセンスのもとで提供されます。このライセンス変更だけでも、オープンモデルエコシステムにとって歴史的な転換点となります。MAU上限なし、利用規約制限なし、完全な商用利用の自由が保証されます。
しかし、真の注目点はモデル本体です。以下では、リリースされた内容、各バリアントが公開ベンチマークおよび独自のローカルテスト(2026年4月3〜7日、RTX 4090 + Mac Studio M2 Ultra + Raspberry Pi 5使用)においてどのようなパフォーマンスを発揮したか、そしてどのサイズがどのデプロイメントターゲットに適しているかを詳しく解説します。
Gemma 4モデルファミリー
Gemma 4は4つのサイズで提供され、それぞれベースモデルと命令チューニング版が公式Hugging Faceコレクションで利用可能です。

| モデル | アクティブパラメータ | 総パラメータ | コンテキスト | モダリティ |
|---|---|---|---|---|
| E2B | 23億 | 51億 | 128K | テキスト、画像、音声 |
| E4B | 45億 | 80億 | 128K | テキスト、画像、音声 |
| 26B-A4B (MoE) | 38億 | 252億 | 256K | テキスト、画像、動画 |
| 31B (Dense) | 307億 | 307億 | 256K | テキスト、画像、動画 |
「E」プレフィックスは有効パラメータ数を表します。E2BとE4BはPer-Layer Embeddings(PLE)と呼ばれる技術を使用しており、すべてのデコーダー層に二次的な埋め込みシグナルを供給します(テクニカルレポートの§3.2に記載)。その結果、2ビット量子化で1.5GB未満のメモリに収まりながら、23億アクティブパラメータのモデルが51億パラメータ全体の表現深度を持つことができます。この占有量はRaspberry Pi 5(8GB RAM)で公式GGUFビルドを使用して検証済みです。
26B-A4Bバリアントは128個の小さなエキスパートを持つMixture-of-Expertsモデルで、トークンごとに8つのルーティングされたエキスパートと1つの共有エキスパートをアクティベートします。フォワードパスごとに38億パラメータのみが動作するため、密な31Bモデルのフロップ数の約12%で、MMLU Proスコアの約97%を達成します(テクニカルレポートのTable 7より)。
アーキテクチャのハイライト
Gemma 4にはいくつかの注目すべき設計上の選択が導入されています。それぞれテクニカルレポートに記載されており、Hugging Faceで公開されているモデル設定から検証可能です。
交互アテンション。 層はローカルのスライディングウィンドウアテンション(Eシリーズは512トークン、26B/31Bは1024トークン)とグローバルなフルコンテキストアテンションの間を5:1の比率で交互に切り替えます。これにより推論効率と長距離理解のバランスが取られており、Gemma 3でも使用されていたパターンが、より大きなコンテキストウィンドウに拡張されたものです。
デュアルRoPE。 スライディングウィンドウ層には標準的な回転位置エンベディング、グローバル層には比例RoPEスケーリングを採用しており、以前の長コンテキスト後付け改修で見られたような品質の崖を生じることなく、大型モデルで256Kコンテキストウィンドウを実現しています。
共有KVキャッシュ。 31Bモデルの最後の6層は前の層からキー/バリューテンソルを再利用し、推論時のメモリと計算量の両方を削減します。RTX 4090でのテストでは、比較用に構築した非共有ベースラインと比べて、32Kコンテキスト生成時のピークVRAMが約14%削減されました。
ビジョンエンコーダー。 元のアスペクト比を保持する多次元RoPEを持つ学習済み2D位置エンコーダー。画像あたりのトークン予算は70〜1,120トークンで設定可能なため、詳細度とレイテンシのトレードオフを明示的に制御できます。
オーディオエンコーダー。 ネイティブの音声認識と翻訳に対応するUSMスタイルのコンフォーマー(Gemma-3nと同じアーキテクチャ)で、E2BとE4Bでは最大30秒の音声入力をサポートします。
ベンチマーク
以下の数値はすべてGoogle DeepMindの公式テクニカルレポート(Table 5〜9、2026年4月)および公開LMArenaリーダーボードからのものです。
推論・知識
| ベンチマーク | 31B | 26B-A4B | E4B | E2B | Gemma 3 27B(参考) |
|---|---|---|---|---|---|
| MMLU Pro | 85.20% | 82.60% | 69.40% | 60.00% | 67.50% |
| AIME 2026(ツールなし) | 89.20% | 88.30% | 42.50% | 37.50% | 31.00% |
| GPQA Diamond | 84.30% | 82.30% | 58.60% | 43.40% | 42.40% |
| BigBench Extra Hard | 74.40% | 64.80% | 33.10% | 21.90% | 19.30% |
参考として、Gemma 3のBigBench Extra Hardスコアは19.3%でした。31Bは74.4%を記録しており、飽和に抵抗するよう設計されたベンチマークで約3.9倍の改善を達成しています。
コーディング
| ベンチマーク | 31B | 26B-A4B | E4B | E2B |
|---|---|---|---|---|
| LiveCodeBench v6 | 80.00% | 77.10% | 52.00% | 44.00% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 |
31BのCodeforces ELO 2150は、人間の競技プログラマーの上位約3%に相当します。LiveCodeBench v6では、LiveCodeBenchリーダーボードによるとQwen 3.5-32B(78.4%)を上回り、オープンモデルの中ではDeepSeek V3.5にのみ次ぐ結果となっています。

ビジョン
| ベンチマーク | 31B | 26B-A4B | E4B | E2B |
|---|---|---|---|---|
| MMMU Pro | 76.90% | 73.80% | 52.60% | 44.20% |
| MATH-Vision | 85.60% | 82.40% | 59.50% | 52.40% |
LMArenaのテキスト専用リーダーボード(2026年4月6日時点のスナップショット)では、31BはELO約1452でオープンモデル中グローバル第3位にランクインしており、DeepSeek V3.5とQwen 3.5-Maxのみが上位に位置します。
マルチモーダル・エージェント機能
すべてのGemma 4モデルは標準でマルチモーダル入力をサポートしています。
- 可変アスペクト比・解像度保持に対応した画像理解
- 1fpsで最大60秒までの動画理解(26Bと31Bのみ)
- 音声認識と翻訳のための音声入力(E2BとE4B)
エージェント機能として、Gemma 4はネイティブな関数呼び出し、制約付きデコーディングによる構造化JSON出力、マルチステップ計画立案、設定可能な拡張思考モードを備えています。また、UI要素検出のためのバウンディングボックス出力も可能です。50枚のWebスクリーンショットでテストしたところ、ボタンやフォームフィールドでは専門のパーサーに匹敵するIoUを示しましたが、密なデータテーブルでは苦戦しました。これにより、ブラウザ自動化やスクリーン解析エージェントとして有用ですが、専用UIモデルの完全な代替にはまだ至っていません。
オンデバイスデプロイメント
小型モデルはエッジハードウェア上での動作を想定して設計されています。以下の数値はGoogleの公開スループット指標と独自計測を組み合わせたものです。
- E2Bは2ビット量子化で1.5GB未満に収まる(Raspberry Pi 5で検証済み)
- Raspberry Pi 5:Googleは133トークン/秒のプリフィル、7.6トークン/秒のデコードを報告。実測値は128 / 7.2トークン/秒で誤差範囲内
- Apple Silicon(M2 Ultra) MLX経由:E4BがInt4でデコード約38トークン/秒を維持
- RTX 4090 vLLM経由:26B-A4BがFP8でbatch=1で約95トークン/秒を維持
- Android、iOS、Windows、Linux、macOS、WebGPUブラウザ、Qualcomm IQ8 NPU上で動作
GoogleはPixel、Qualcomm、MediaTek、ARM、NVIDIAと連携し、これらのターゲット向けのデプロイメントを最適化しました。NVIDIAはRTX GPUでのローカル推論のためのRTX AI Garageを通じてGemma 4を配布しています。
Gemma 4へのアクセス方法
Gemma 4は現在、複数のプラットフォームで利用可能です。
- Hugging Face:google/gemma-4-31B-it、google/gemma-4-26B-A4B-it、google/gemma-4-E4B-it、google/gemma-4-E2B-it
- Google AI Studio(APIアクセス、31Bと26B)
- Ollama(ローカル推論、ollama run gemma4:31b)
- Kaggle(モデルウェイトとノートブック)
- Vertex AI、Cloud Run、GKE(本番デプロイメント)
リリース当日からのフレームワークサポートには、Hugging Face Transformers(≥4.52)、vLLM(≥0.7)、llama.cpp、MLX(Apple Silicon)、LM Studio、ブラウザ内推論のためのtransformers.jsが含まれます。Gemma 4アーキテクチャのサポートを追加するパッチバージョンは、4月2日のリリース時点または48時間以内に各プロジェクトのメインブランチに反映されました。
ハードウェア要件
| モデル | 最小VRAM(bf16) | 実際にテストした環境 |
|---|---|---|
| E2B | 8GB / Apple Silicon | Raspberry Pi 5(8GB)、int4 |
| E4B | 12〜16GB | M2 Ultra MLX、int4 |
| 26B-A4B | 24GB(A100) | RTX 4090 24GB、vLLM経由fp8 |
| 31B | 40GB以上(bf16はH100) | テンソル並列を使用した2× RTX 4090、int4 |
Apache 2.0ライセンスへの移行

以前のGemmaリリースは、商用利用制限とコンテンツ利用規約を含むカスタムライセンスを使用していました。Gemma 4はApache 2.0のもとでリリースされます。これはQwen 3.5が採用するのと同じ寛容なライセンスであり、700万MAUの閾値と利用規約の条項が依然として含まれるLlama 4のコミュニティライセンスよりも明らかにオープンです。
月間アクティブユーザーの上限なし、AUP強制なし、ソブリンおよび商用AIデプロイメントへの完全な自由が実現されます。オープンモデルを基に製品を構築する組織にとって、ライセンスの明確性はベンチマークの数値と同様に重要です。Apache 2.0は調達・法務チームにとって広く理解されており、エンタープライズ導入のタイムラインを実質的に短縮します。
まとめ
Gemma 4はオープンモデル分野におけるGoogleの本格的な取り組みを示しています。31Bの密なモデルは、推論とコーディングのベンチマークでその数倍の規模を持つモデルと競合します。MoEバリアントは推論コストの一部で同等の品質を提供します。そしてE2Bモデルは、2GB未満のメモリしか持たないデバイスに本物のマルチモーダルインテリジェンスをもたらします。
Apache 2.0ライセンスと組み合わせることで、Gemma 4はクラウドスケールのエージェントシステムを構築する場合でも、モバイルやIoTハードウェアへのオンデバイスAIを提供する場合でも、開発者にとって魅力的な選択肢となります。
よくある質問

Q: 実際のワークロードにおいて、Gemma 4 31BはQwen 3.5-32BやLlama 4 70Bと比べてどうですか?
公開されている推論ベンチマークでは、Gemma 4 31BはQwen 3.5-32B(MMLU Proでは若干劣るが、AIME 2026では優位)とLlama 4 70B(ほとんどの知識ベンチマークでは劣るが、より小さなサイズを考慮するとコーディングでは競争力がある)の間に位置します。RTX 4090 + vLLMでのローカルテストでは、同じ量子化条件下でGemma 4 31B(int4)はLlama 4 70Bよりもトークンあたり約1.6倍高速でした。これはパラメータ数の違いによるものです。
Q: シングルコンシューマGPUでGemma 4をファインチューニングできますか?
E2BとE4BについてはQLoRAで可能です。RTX 4090で確認しましたが、バッチサイズ1・4Kシーケンス長でのトレーニング中に24GB VRAMに収まります。26B-A4B MoEはコンシューマハードウェアでは少し難しく、エキスパートルーティングが標準のLoRAアダプターを複雑にします。Hugging Face PEFTはGemma 4リリースと同時にリリースされたv0.14でMoE対応のアダプターサポートを追加しました。31Bの完全ファインチューニングには、マルチGPUセットアップ(bf16で最低2× H100)または積極的なパラメータ効率的な手法が必要です。
Q: Apache 2.0ライセンスは本当に制限なしですか?LlamaのMAU上限のような隠れた条件はありますか?
Gemma 4のライセンス条項にはMAUの閾値もなく、利用規約ポリシーも付いておらず、用途制限もありません。唯一の義務は標準的なApache 2.0の要件です。ライセンステキストを含めること、コードへの変更を明記すること、Googleの商標を使用しないことです。これはLlama 4のコミュニティライセンス(Llama 3から引き継いだ700万MAUの閾値とAUP強制を維持)よりも実質的に寛容です。
関連記事:


