GLM-5.1 vs Claude, GPT, Gemini, DeepSeek : comment se positionne le dernier modèle de Zhipu AI
Le GLM-5.1 de Zhipu AI revendique 94,6 % des performances de codage de Claude Opus 4.6 — entraîné entièrement sur des puces Huawei et en open-weights. Voici comment il se compare à chaque grand LLM frontier en 2026.
Zhipu AI vient de publier GLM-5.1 le 27 mars 2026, et les chiffres font tourner les têtes. Le laboratoire d’IA chinois — qui a fait son IPO à la bourse de Hong Kong en janvier à une valorisation de 31,3 milliards de dollars — affirme que son dernier modèle atteint 94,6 % des performances de codage de Claude Opus 4.6, tout en étant open-weights et entraîné entièrement sans matériel Nvidia.
Voici comment GLM-5.1 se compare à tous les grands modèles frontier en 2026.
Qu’est-ce que GLM-5.1 ?
GLM-5.1 est une mise à niveau incrémentale de GLM-5, axée sur l’amélioration du codage et du raisonnement grâce à un post-entraînement amélioré. L’architecture de base est partagée avec GLM-5 :
| Spécification | Détail |
|---|---|
| Paramètres totaux | 744B (Mixture-of-Experts) |
| Paramètres actifs | 40-44B par token |
| Architecture d’experts | 256 experts, 8 actifs par token |
| Fenêtre de contexte | 200K tokens |
| Sortie maximale | 131 072 tokens |
| Données d’entraînement | 28,5 billions de tokens |
| Matériel d’entraînement | 100 000 puces Huawei Ascend 910B |
| Licence | MIT (open-weights) |
L’histoire de l’infrastructure d’entraînement est significative : GLM-5 et 5.1 ont été entraînés entièrement sur des puces Huawei Ascend — aucun GPU Nvidia. Compte tenu des contrôles américains à l’exportation sur les puces IA vers la Chine, c’est une étape importante pour l’autonomie de l’IA chinoise.
Quelles sont les nouveautés de la version 5.1
GLM-5.1 n’est pas une nouvelle architecture — c’est un raffinement post-entraînement de GLM-5 axé sur le codage :
- Le score de benchmark de codage est passé de 35,4 (GLM-5) à 45,3 (GLM-5.1) — un gain de 28 %
- Cela le place à 94,6 % du score de codage de Claude Opus 4.6 (45,3 contre 47,9)
- Amélioré grâce à un alignement progressif : SFT multi-tâches → RL de raisonnement → RL agentique → RL général → distillation cross-stage on-policy
La comparaison des benchmarks
Voici comment GLM-5/5.1 se situe par rapport à tous les modèles frontier disposant de données de benchmark disponibles :
Raisonnement et connaissances
| Modèle | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2 (OpenAI) | 92,4 % | 100 % | ~90 % | N/A |
| Claude Opus 4.6 (Anthropic) | 91,3 % | 99,8 % | 91,1 % | 53,1 % |
| Qwen 3.5 (Alibaba) | 88,4 % | N/A | 88,5 % | N/A |
| GLM-5 (Zhipu AI) | 86,0 % | 92,7 % | 88-92 % | 30,5 |
| DeepSeek V3.2 | N/A | 89,3 % | ~88,5 % | N/A |
| Gemini 2.5 Pro (Google) | 84,0 % | 86,7 % | 89,8 % | 18,8 % |
| Llama 4 Maverick (Meta) | 84,0 % | 83,0 % | 85,5 % | N/A |
GLM-5 tient bien son rang en raisonnement — notamment sur AIME 2025 (92,7 %), où il surpasse DeepSeek, Gemini et Llama. Mais il reste en retrait face à Claude Opus 4.6 et GPT-5.2 sur GPQA Diamond et Humanity’s Last Exam.
Codage
| Modèle | SWE-bench Verified | LiveCodeBench | Score de codage |
|---|---|---|---|
| Claude Opus 4.6 | 80,8 % | N/A | 47,9 |
| GPT-5.2 | 80,0 % | N/A | N/A |
| GLM-5.1 | 77,8 % | 52,0 % | 45,3 |
| Qwen 3.5 | 76,4 % | 83,6 % | N/A |
| DeepSeek V3.2 | 73,1 % | 74,1 % | N/A |
| Gemini 2.5 Pro | 63,8 % | 70,4 % | N/A |
| Llama 4 Maverick | N/A | 39,7-70,4 % | N/A |
L’amélioration du codage de GLM-5.1 est sa fonctionnalité phare. Avec 77,8 % sur SWE-bench Verified, il est compétitif avec les meilleurs modèles à source fermée — seulement 3 points derrière Claude Opus 4.6 (80,8 %) et GPT-5.2 (80,0 %). Pour un modèle open-weights, c’est exceptionnel.
Préférence humaine (Chatbot Arena)
| Modèle | ELO Arena | Rang |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | Haut de gamme |
GLM-5 se classe #1 parmi les modèles open-weights dans la Text Arena et la Code Arena sur LMArena — une excellente démonstration de préférence humaine, même s’il reste derrière Opus 4.6 dans l’ensemble.
Comparaison des prix
L’un des atouts majeurs de GLM-5.1 est son coût.
| Modèle | Entrée (par 1M tokens) | Sortie (par 1M tokens) |
|---|---|---|
| GLM-5.1 | 1,00 $ | 3,20 $ |
| DeepSeek V3.2 | 0,27 $ | 1,10 $ |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ |
| GPT-5.2 | 3,00 $ | 12,00 $ |
| Claude Opus 4.6 | 15,00 $ | 75,00 $ |
| Gemini 2.5 Pro | 1,25 $ | 10,00 $ |
GLM-5.1 offre des performances proches du niveau frontier à une fraction du coût de Claude Opus 4.6 ou GPT-5.2. Seul DeepSeek le bat sur le pur tarif.
Zhipu AI propose également un abonnement GLM Coding Plan :
- Lite : 3 $/mois pour 120 requêtes
- Pro : 15 $/mois pour 600 requêtes
À comparer avec Claude Max à 100-200 $/mois.
Ce qui distingue GLM-5.1
1. Open-Weights à l’échelle frontier
GLM-5 est le premier modèle open-weights à atteindre le score 50 sur l’Artificial Analysis Intelligence Index. Les poids sont disponibles sur HuggingFace sous licence MIT (zai-org/GLM-5), déployables via vLLM, SGLang et KTransformers. Les poids de GLM-5.1 sont promis mais pas encore publiés.
2. Aucun Nvidia requis
Entraîné sur 100 000 puces Huawei Ascend 910B, GLM-5/5.1 prouve que l’entraînement d’IA frontier est possible sans matériel Nvidia. Cela a des implications géopolitiques qui dépassent la performance technique.
3. Post-entraînement agressif
Le gain de 28 % en codage de GLM-5 à 5.1 est entièrement issu de l’optimisation post-entraînement — même modèle de base, meilleur alignement. Le pipeline d’« alignement progressif » de Zhipu (SFT multi-tâches → RL multi-étapes → distillation cross-stage) produit de vrais gains.
4. Hallucination réduite
GLM-5 a montré une amélioration de 35 points sur l’AA-Omniscience Index par rapport à GLM-4.7, avec une meilleure efficacité des tokens (~110M tokens de sortie contre ~170M pour des tâches similaires). Il dit moins et obtient davantage de bonnes réponses.
Limitations
- Texte uniquement. Pas d’entrée image, audio ou vidéo. Pour les tâches multimodales, vous aurez besoin de Claude, GPT ou Gemini.
- Scores de codage auto-rapportés. L’affirmation des 94,6 %-d’Opus utilise Claude Code comme cadre d’évaluation. Une vérification indépendante est en attente.
- Exigences de stockage. Le modèle complet en BF16 nécessite ~1,49 To — l’auto-hébergement n’est pas anodin.
- Poids de GLM-5.1 pas encore publiés. Seul GLM-5 est actuellement open-weights.
Quel modèle choisir selon l’usage
Choisissez GLM-5.1 quand :
- Vous avez besoin de performances de codage de niveau frontier à faible coût
- L’open-weights / l’auto-hébergement est important pour votre déploiement
- Vous construisez sur une infrastructure cloud chinoise (Huawei Ascend)
- Le budget est une contrainte principale et DeepSeek ne répond pas à vos besoins
Choisissez Claude Opus 4.6 quand :
- La capacité maximale sur toutes les tâches est la priorité
- Vous avez besoin du meilleur raisonnement (GPQA 91,3 %, HLE 53,1 %, AIME 99,8 %)
- Les workflows agentiques et les tâches complexes multi-étapes sont votre cas d’usage
- Vous avez besoin de capacités multimodales
Choisissez GPT-5.2 quand :
- Les scores mathématiques parfaits sont importants (AIME 100 %)
- Vous êtes dans l’écosystème OpenAI
- Vous avez besoin de fortes capacités multimodales et d’utilisation d’outils
Choisissez DeepSeek V3.2 quand :
- L’efficacité des coûts est la priorité absolue (0,27 $/1,10 $ par million de tokens)
- Open-source avec un codage solide (SWE-bench 73,1 %)
- Vous voulez l’option frontier-adjacent la moins chère
Choisissez Qwen 3.5 quand :
- Vous avez besoin des meilleures performances LiveCodeBench open-source (83,6 %)
- SWE-bench 76,4 % en open-weights est suffisant
- GPQA Diamond élevé (88,4 %) parmi les modèles ouverts
Conclusion
GLM-5.1 est un véritable modèle proche du niveau frontier. Avec 94,6 % des performances de codage de Claude Opus 4.6, 77,8 % sur SWE-bench Verified, et 1,00 $/3,20 $ par million de tokens, il offre une proposition de valeur convaincante — en particulier en tant que modèle open-weights.
La vraie histoire est ce que représente GLM-5.1 : un laboratoire chinois produisant une IA compétitive au niveau frontier sur du matériel domestique, la publiant en open-weights, et la tarifant de manière agressive. L’écart entre les meilleurs modèles à source fermée (Claude Opus 4.6, GPT-5.2) et les meilleurs modèles ouverts (GLM-5.1, Qwen 3.5, DeepSeek) continue de se réduire.
Pour les développeurs, cela signifie plus d’options à moindre coût. Pour l’industrie, cela signifie que le niveau frontier se densifie — et c’est une bonne chose pour tout le monde.



