GLM-5.1 対 Claude・GPT・Gemini・DeepSeek:Zhipu AIの最新モデルを徹底比較
Zhipu AIのGLM-5.1はClaude Opus 4.6のコーディング性能の94.6%を達成と主張——Huaweiチップのみで学習され、オープンウェイトで公開。2026年における主要フロンティアLLMとの比較を詳しく解説。
Zhipu AIは2026年3月27日にGLM-5.1をリリースし、その数字が注目を集めています。香港証券取引所に310億ドルの評価額でIPOを果たした中国のAIラボは、最新モデルが**Claude Opus 4.6のコーディング性能の94.6%**に達すると主張しており、しかもオープンウェイトでNvidiaハードウェアを一切使用せずに訓練されています。
GLM-5.1が2026年の主要なフロンティアモデルとどのように比較されるかを見ていきましょう。
GLM-5.1とは?
GLM-5.1はGLM-5のインクリメンタルなアップグレードであり、強化されたポストトレーニングによるコーディングと推論の改善に焦点を当てています。基本アーキテクチャはGLM-5と共有されています:
| スペック | 詳細 |
|---|---|
| 総パラメータ数 | 744B(Mixture-of-Experts) |
| アクティブパラメータ | トークンあたり40〜44B |
| エキスパートアーキテクチャ | 256エキスパート、トークンあたり8つがアクティブ |
| コンテキストウィンドウ | 200Kトークン |
| 最大出力 | 131,072トークン |
| 学習データ | 28.5兆トークン |
| 学習ハードウェア | Huawei Ascend 910Bチップ 100,000基 |
| ライセンス | MIT(オープンウェイト) |
学習インフラの話は重要です:GLM-5と5.1は完全にHuawei Ascendチップで訓練されており、NvidiaのGPUは使用していません。中国への AIチップに関する米国の輸出規制を考えると、これは中国のAI自給自足における重要なマイルストーンです。
5.1での新機能
GLM-5.1は新しいアーキテクチャではなく、コーディングに焦点を当てたGLM-5のポストトレーニング改良版です:
- コーディングベンチマークスコアが35.4(GLM-5)から45.3(GLM-5.1)に向上 — 28%の向上
- これにより**Claude Opus 4.6のコーディングスコアの94.6%**に達しています(45.3対47.9)
- プログレッシブアライメントによる強化:マルチタスクSFT → 推論RL → エージェントRL → 汎用RL → オンポリシークロスステージ蒸留
ベンチマーク比較
GLM-5/5.1が利用可能なベンチマークデータで各フロンティアモデルとどのように比較されるかを示します:
推論と知識
| モデル | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2(OpenAI) | 92.4% | 100% | ~90% | N/A |
| Claude Opus 4.6(Anthropic) | 91.3% | 99.8% | 91.1% | 53.1% |
| Qwen 3.5(Alibaba) | 88.4% | N/A | 88.5% | N/A |
| GLM-5(Zhipu AI) | 86.0% | 92.7% | 88〜92% | 30.5 |
| DeepSeek V3.2 | N/A | 89.3% | ~88.5% | N/A |
| Gemini 2.5 Pro(Google) | 84.0% | 86.7% | 89.8% | 18.8% |
| Llama 4 Maverick(Meta) | 84.0% | 83.0% | 85.5% | N/A |
GLM-5は推論において健闘しています — 特にAIME 2025(92.7%)では、DeepSeek、Gemini、Llamaを上回っています。ただし、GPQA DiamondとHumanity’s Last ExamではClaude Opus 4.6およびGPT-5.2に遅れをとっています。
コーディング
| モデル | SWE-bench Verified | LiveCodeBench | コーディングスコア |
|---|---|---|---|
| Claude Opus 4.6 | 80.8% | N/A | 47.9 |
| GPT-5.2 | 80.0% | N/A | N/A |
| GLM-5.1 | 77.8% | 52.0% | 45.3 |
| Qwen 3.5 | 76.4% | 83.6% | N/A |
| DeepSeek V3.2 | 73.1% | 74.1% | N/A |
| Gemini 2.5 Pro | 63.8% | 70.4% | N/A |
| Llama 4 Maverick | N/A | 39.7〜70.4% | N/A |
GLM-5.1のコーディング改善はその目玉機能です。**SWE-bench Verifiedで77.8%**を達成し、トップのクローズドソースモデルと競合しています — Claude Opus 4.6(80.8%)とGPT-5.2(80.0%)からわずか3ポイント差です。オープンウェイトモデルとして、これは際立った成果です。
人間の好み(Chatbot Arena)
| モデル | Arena ELO | ランク |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | トップティア |
GLM-5はLMArenaのText ArenaとCode Arenaの両方で、オープンウェイトモデルの中で第1位にランクしています — Opus 4.6全体には及ばないものの、人間の好みにおける強い結果です。
価格比較
GLM-5.1の最大の強みの一つはコストです。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1はClaude Opus 4.6やGPT-5.2のわずかなコストで、フロンティアに近い性能を提供します。純粋な価格面でこれを下回るのはDeepSeekのみです。
Zhipu AIはGLM コーディングプランサブスクリプションも提供しています:
- Lite: 月額$3(120プロンプト)
- Pro: 月額$15(600プロンプト)
月額$100〜200のClaude Maxと比較してみてください。
GLM-5.1を際立たせるもの
1. フロンティア規模のオープンウェイト
GLM-5はArtificial Analysis Intelligence Indexでスコア50に達した最初のオープンウェイトモデルです。ウェイトはHuggingFaceにMITライセンスで公開されており(zai-org/GLM-5)、vLLM、SGLang、KTransformersを通じてデプロイ可能です。GLM-5.1のウェイトは約束されていますが、まだリリースされていません。
2. Nvidiaが不要
100,000基のHuawei Ascend 910Bチップで訓練されたGLM-5/5.1は、NvidiaハードウェアなしでフロンティアレベルのAI訓練が可能であることを証明しました。これは技術的な成果を超えた地政学的な意味を持ちます。
3. 積極的なポストトレーニング
GLM-5から5.1へのコーディングの28%向上は、完全にポストトレーニングの最適化から生まれました — 同じベースモデル、より良いアライメント。Zhipuの「プログレッシブアライメント」パイプライン(マルチタスクSFT → マルチステージRL → クロスステージ蒸留)は真の向上をもたらしています。
4. 幻覚の低減
GLM-5はGLM-4.7と比較してAA-Omniscience Indexで35ポイントの改善を示し、トークン効率も向上しています(同様のタスクで約1億1000万出力トークン対約1億7000万トークン)。より少ない出力でより正確な結果を出しています。
制限事項
- テキストのみ。 画像、音声、動画の入力には対応していません。マルチモーダルタスクにはClaude、GPT、またはGeminiが必要です。
- 自己申告のコーディングスコア。 94.6%-of-Opusの主張はClaude Codeを評価フレームワークとして使用しています。独立した検証はまだ行われていません。
- ストレージ要件。 フルBF16モデルは約1.49TBを必要とします — セルフホスティングは容易ではありません。
- GLM-5.1のウェイトはまだリリースされていません。 現在オープンウェイトとして利用できるのはGLM-5のみです。
どのモデルをいつ使うか
GLM-5.1を選ぶ場合:
- 低コストでフロンティアレベルのコーディング性能が必要な場合
- デプロイメントにオープンウェイト/セルフホスティングが重要な場合
- Huawei Ascendの中国クラウドインフラ上で構築している場合
- 予算が主な制約でDeepSeekがニーズを満たさない場合
Claude Opus 4.6を選ぶ場合:
- すべてのタスクにおける最大の能力が優先事項の場合
- 最高の推論能力が必要な場合(GPQA 91.3%、HLE 53.1%、AIME 99.8%)
- エージェントワークフローと複雑なマルチステップタスクがユースケースの場合
- マルチモーダル機能が必要な場合
GPT-5.2を選ぶ場合:
- 完璧な数学スコアが重要な場合(AIME 100%)
- OpenAIエコシステムにいる場合
- 強力なマルチモーダルとツール使用機能が必要な場合
DeepSeek V3.2を選ぶ場合:
- コスト効率が最優先事項の場合(100万トークンあたり$0.27/$1.10)
- 強力なコーディング(SWE-bench 73.1%)を持つオープンソースが必要な場合
- 最も安価なフロンティア近接オプションが欲しい場合
Qwen 3.5を選ぶ場合:
- 最高のオープンソースLiveCodeBenchパフォーマンスが必要な場合(83.6%)
- オープンウェイトでSWE-bench 76.4%で十分な場合
- オープンモデルの中で強いGPQA Diamond(88.4%)が必要な場合
まとめ
GLM-5.1は真にフロンティアに近いモデルです。Claude Opus 4.6のコーディング性能の94.6%、SWE-bench Verifiedで77.8%、そして100万トークンあたり$1.00/$3.20という価格で、特にオープンウェイトモデルとして説得力のある価値提案を提供しています。
より大きなストーリーは、GLM-5.1が示すものです:中国のラボが国産ハードウェアでフロンティア競合のAIを生産し、オープンウェイトとしてリリースし、積極的な価格設定を行っています。最高のクローズドソースモデル(Claude Opus 4.6、GPT-5.2)と最高のオープンモデル(GLM-5.1、Qwen 3.5、DeepSeek)の間のギャップは縮まり続けています。
開発者にとっては、より低いコストでより多くの選択肢を意味します。業界にとっては、フロンティアが混雑してきていることを意味します — そしてそれは皆にとって良いことです。



