GLM-5.1 vs Claude, GPT, Gemini, DeepSeek : comment se positionne le dernier modèle de Zhipu AI

Le GLM-5.1 de Zhipu AI revendique 94,6 % des performances de codage de Claude Opus 4.6 — entraîné entièrement sur des puces Huawei et en open-weights. Voici comment il se compare à chaque grand LLM frontier en 2026.

8 min read

Zhipu AI vient de publier GLM-5.1 le 27 mars 2026, et les chiffres font tourner les têtes. Le laboratoire d’IA chinois — qui a fait son IPO à la bourse de Hong Kong en janvier à une valorisation de 31,3 milliards de dollars — affirme que son dernier modèle atteint 94,6 % des performances de codage de Claude Opus 4.6, tout en étant open-weights et entraîné entièrement sans matériel Nvidia.

Voici comment GLM-5.1 se compare à tous les grands modèles frontier en 2026.

Qu’est-ce que GLM-5.1 ?

GLM-5.1 est une mise à niveau incrémentale de GLM-5, axée sur l’amélioration du codage et du raisonnement grâce à un post-entraînement amélioré. L’architecture de base est partagée avec GLM-5 :

SpécificationDétail
Paramètres totaux744B (Mixture-of-Experts)
Paramètres actifs40-44B par token
Architecture d’experts256 experts, 8 actifs par token
Fenêtre de contexte200K tokens
Sortie maximale131 072 tokens
Données d’entraînement28,5 billions de tokens
Matériel d’entraînement100 000 puces Huawei Ascend 910B
LicenceMIT (open-weights)

L’histoire de l’infrastructure d’entraînement est significative : GLM-5 et 5.1 ont été entraînés entièrement sur des puces Huawei Ascend — aucun GPU Nvidia. Compte tenu des contrôles américains à l’exportation sur les puces IA vers la Chine, c’est une étape importante pour l’autonomie de l’IA chinoise.

Quelles sont les nouveautés de la version 5.1

GLM-5.1 n’est pas une nouvelle architecture — c’est un raffinement post-entraînement de GLM-5 axé sur le codage :

  • Le score de benchmark de codage est passé de 35,4 (GLM-5) à 45,3 (GLM-5.1) — un gain de 28 %
  • Cela le place à 94,6 % du score de codage de Claude Opus 4.6 (45,3 contre 47,9)
  • Amélioré grâce à un alignement progressif : SFT multi-tâches → RL de raisonnement → RL agentique → RL général → distillation cross-stage on-policy

La comparaison des benchmarks

Voici comment GLM-5/5.1 se situe par rapport à tous les modèles frontier disposant de données de benchmark disponibles :

Raisonnement et connaissances

ModèleGPQA DiamondAIME 2025MMLUHLE
GPT-5.2 (OpenAI)92,4 %100 %~90 %N/A
Claude Opus 4.6 (Anthropic)91,3 %99,8 %91,1 %53,1 %
Qwen 3.5 (Alibaba)88,4 %N/A88,5 %N/A
GLM-5 (Zhipu AI)86,0 %92,7 %88-92 %30,5
DeepSeek V3.2N/A89,3 %~88,5 %N/A
Gemini 2.5 Pro (Google)84,0 %86,7 %89,8 %18,8 %
Llama 4 Maverick (Meta)84,0 %83,0 %85,5 %N/A

GLM-5 tient bien son rang en raisonnement — notamment sur AIME 2025 (92,7 %), où il surpasse DeepSeek, Gemini et Llama. Mais il reste en retrait face à Claude Opus 4.6 et GPT-5.2 sur GPQA Diamond et Humanity’s Last Exam.

Codage

ModèleSWE-bench VerifiedLiveCodeBenchScore de codage
Claude Opus 4.680,8 %N/A47,9
GPT-5.280,0 %N/AN/A
GLM-5.177,8 %52,0 %45,3
Qwen 3.576,4 %83,6 %N/A
DeepSeek V3.273,1 %74,1 %N/A
Gemini 2.5 Pro63,8 %70,4 %N/A
Llama 4 MaverickN/A39,7-70,4 %N/A

L’amélioration du codage de GLM-5.1 est sa fonctionnalité phare. Avec 77,8 % sur SWE-bench Verified, il est compétitif avec les meilleurs modèles à source fermée — seulement 3 points derrière Claude Opus 4.6 (80,8 %) et GPT-5.2 (80,0 %). Pour un modèle open-weights, c’est exceptionnel.

Préférence humaine (Chatbot Arena)

ModèleELO ArenaRang
Claude Opus 4.6~1503#1
GLM-51451Haut de gamme

GLM-5 se classe #1 parmi les modèles open-weights dans la Text Arena et la Code Arena sur LMArena — une excellente démonstration de préférence humaine, même s’il reste derrière Opus 4.6 dans l’ensemble.

Comparaison des prix

L’un des atouts majeurs de GLM-5.1 est son coût.

ModèleEntrée (par 1M tokens)Sortie (par 1M tokens)
GLM-5.11,00 $3,20 $
DeepSeek V3.20,27 $1,10 $
Claude Sonnet 4.63,00 $15,00 $
GPT-5.23,00 $12,00 $
Claude Opus 4.615,00 $75,00 $
Gemini 2.5 Pro1,25 $10,00 $

GLM-5.1 offre des performances proches du niveau frontier à une fraction du coût de Claude Opus 4.6 ou GPT-5.2. Seul DeepSeek le bat sur le pur tarif.

Zhipu AI propose également un abonnement GLM Coding Plan :

  • Lite : 3 $/mois pour 120 requêtes
  • Pro : 15 $/mois pour 600 requêtes

À comparer avec Claude Max à 100-200 $/mois.

Ce qui distingue GLM-5.1

1. Open-Weights à l’échelle frontier

GLM-5 est le premier modèle open-weights à atteindre le score 50 sur l’Artificial Analysis Intelligence Index. Les poids sont disponibles sur HuggingFace sous licence MIT (zai-org/GLM-5), déployables via vLLM, SGLang et KTransformers. Les poids de GLM-5.1 sont promis mais pas encore publiés.

2. Aucun Nvidia requis

Entraîné sur 100 000 puces Huawei Ascend 910B, GLM-5/5.1 prouve que l’entraînement d’IA frontier est possible sans matériel Nvidia. Cela a des implications géopolitiques qui dépassent la performance technique.

3. Post-entraînement agressif

Le gain de 28 % en codage de GLM-5 à 5.1 est entièrement issu de l’optimisation post-entraînement — même modèle de base, meilleur alignement. Le pipeline d’« alignement progressif » de Zhipu (SFT multi-tâches → RL multi-étapes → distillation cross-stage) produit de vrais gains.

4. Hallucination réduite

GLM-5 a montré une amélioration de 35 points sur l’AA-Omniscience Index par rapport à GLM-4.7, avec une meilleure efficacité des tokens (~110M tokens de sortie contre ~170M pour des tâches similaires). Il dit moins et obtient davantage de bonnes réponses.

Limitations

  • Texte uniquement. Pas d’entrée image, audio ou vidéo. Pour les tâches multimodales, vous aurez besoin de Claude, GPT ou Gemini.
  • Scores de codage auto-rapportés. L’affirmation des 94,6 %-d’Opus utilise Claude Code comme cadre d’évaluation. Une vérification indépendante est en attente.
  • Exigences de stockage. Le modèle complet en BF16 nécessite ~1,49 To — l’auto-hébergement n’est pas anodin.
  • Poids de GLM-5.1 pas encore publiés. Seul GLM-5 est actuellement open-weights.

Quel modèle choisir selon l’usage

Choisissez GLM-5.1 quand :

  • Vous avez besoin de performances de codage de niveau frontier à faible coût
  • L’open-weights / l’auto-hébergement est important pour votre déploiement
  • Vous construisez sur une infrastructure cloud chinoise (Huawei Ascend)
  • Le budget est une contrainte principale et DeepSeek ne répond pas à vos besoins

Choisissez Claude Opus 4.6 quand :

  • La capacité maximale sur toutes les tâches est la priorité
  • Vous avez besoin du meilleur raisonnement (GPQA 91,3 %, HLE 53,1 %, AIME 99,8 %)
  • Les workflows agentiques et les tâches complexes multi-étapes sont votre cas d’usage
  • Vous avez besoin de capacités multimodales

Choisissez GPT-5.2 quand :

  • Les scores mathématiques parfaits sont importants (AIME 100 %)
  • Vous êtes dans l’écosystème OpenAI
  • Vous avez besoin de fortes capacités multimodales et d’utilisation d’outils

Choisissez DeepSeek V3.2 quand :

  • L’efficacité des coûts est la priorité absolue (0,27 $/1,10 $ par million de tokens)
  • Open-source avec un codage solide (SWE-bench 73,1 %)
  • Vous voulez l’option frontier-adjacent la moins chère

Choisissez Qwen 3.5 quand :

  • Vous avez besoin des meilleures performances LiveCodeBench open-source (83,6 %)
  • SWE-bench 76,4 % en open-weights est suffisant
  • GPQA Diamond élevé (88,4 %) parmi les modèles ouverts

Conclusion

GLM-5.1 est un véritable modèle proche du niveau frontier. Avec 94,6 % des performances de codage de Claude Opus 4.6, 77,8 % sur SWE-bench Verified, et 1,00 $/3,20 $ par million de tokens, il offre une proposition de valeur convaincante — en particulier en tant que modèle open-weights.

La vraie histoire est ce que représente GLM-5.1 : un laboratoire chinois produisant une IA compétitive au niveau frontier sur du matériel domestique, la publiant en open-weights, et la tarifant de manière agressive. L’écart entre les meilleurs modèles à source fermée (Claude Opus 4.6, GPT-5.2) et les meilleurs modèles ouverts (GLM-5.1, Qwen 3.5, DeepSeek) continue de se réduire.

Pour les développeurs, cela signifie plus d’options à moindre coût. Pour l’industrie, cela signifie que le niveau frontier se densifie — et c’est une bonne chose pour tout le monde.