GLM-5.1 vs Claude, GPT, Gemini, DeepSeek : comment se positionne le dernier modèle de Zhipu AI

Zhipu AI vient de publier GLM-5.1 le 27 mars 2026, et les chiffres font tourner les têtes. Le laboratoire d’IA chinois — qui a fait son IPO à la bourse de Hong Kong en janvier à une valorisation de 31,3 milliards de dollars — affirme que son dernier modèle atteint 94,6 % des performances de codage de Claude Opus 4.6, tout en étant open-weights et entraîné entièrement sans matériel Nvidia.

Voici comment GLM-5.1 se compare à tous les grands modèles frontier en 2026.

Qu’est-ce que GLM-5.1 ?

GLM-5.1 est une mise à niveau incrémentale de GLM-5, axée sur l’amélioration du codage et du raisonnement grâce à un post-entraînement amélioré. L’architecture de base est partagée avec GLM-5 :

Spécification	Détail
Paramètres totaux	744B (Mixture-of-Experts)
Paramètres actifs	40-44B par token
Architecture d’experts	256 experts, 8 actifs par token
Fenêtre de contexte	200K tokens
Sortie maximale	131 072 tokens
Données d’entraînement	28,5 billions de tokens
Matériel d’entraînement	100 000 puces Huawei Ascend 910B
Licence	MIT (open-weights)

L’histoire de l’infrastructure d’entraînement est significative : GLM-5 et 5.1 ont été entraînés entièrement sur des puces Huawei Ascend — aucun GPU Nvidia. Compte tenu des contrôles américains à l’exportation sur les puces IA vers la Chine, c’est une étape importante pour l’autonomie de l’IA chinoise.

Quelles sont les nouveautés de la version 5.1

GLM-5.1 n’est pas une nouvelle architecture — c’est un raffinement post-entraînement de GLM-5 axé sur le codage :

Le score de benchmark de codage est passé de 35,4 (GLM-5) à 45,3 (GLM-5.1) — un gain de 28 %
Cela le place à 94,6 % du score de codage de Claude Opus 4.6 (45,3 contre 47,9)
Amélioré grâce à un alignement progressif : SFT multi-tâches → RL de raisonnement → RL agentique → RL général → distillation cross-stage on-policy

La comparaison des benchmarks

Voici comment GLM-5/5.1 se situe par rapport à tous les modèles frontier disposant de données de benchmark disponibles :

Raisonnement et connaissances

Modèle	GPQA Diamond	AIME 2025	MMLU	HLE
GPT-5.2 (OpenAI)	92,4 %	100 %	~90 %	N/A
Claude Opus 4.6 (Anthropic)	91,3 %	99,8 %	91,1 %	53,1 %
Qwen 3.5 (Alibaba)	88,4 %	N/A	88,5 %	N/A
GLM-5 (Zhipu AI)	86,0 %	92,7 %	88-92 %	30,5
DeepSeek V3.2	N/A	89,3 %	~88,5 %	N/A
Gemini 2.5 Pro (Google)	84,0 %	86,7 %	89,8 %	18,8 %
Llama 4 Maverick (Meta)	84,0 %	83,0 %	85,5 %	N/A

GLM-5 tient bien son rang en raisonnement — notamment sur AIME 2025 (92,7 %), où il surpasse DeepSeek, Gemini et Llama. Mais il reste en retrait face à Claude Opus 4.6 et GPT-5.2 sur GPQA Diamond et Humanity’s Last Exam.

Codage

Modèle	SWE-bench Verified	LiveCodeBench	Score de codage
Claude Opus 4.6	80,8 %	N/A	47,9
GPT-5.2	80,0 %	N/A	N/A
GLM-5.1	77,8 %	52,0 %	45,3
Qwen 3.5	76,4 %	83,6 %	N/A
DeepSeek V3.2	73,1 %	74,1 %	N/A
Gemini 2.5 Pro	63,8 %	70,4 %	N/A
Llama 4 Maverick	N/A	39,7-70,4 %	N/A

L’amélioration du codage de GLM-5.1 est sa fonctionnalité phare. Avec 77,8 % sur SWE-bench Verified, il est compétitif avec les meilleurs modèles à source fermée — seulement 3 points derrière Claude Opus 4.6 (80,8 %) et GPT-5.2 (80,0 %). Pour un modèle open-weights, c’est exceptionnel.

Préférence humaine (Chatbot Arena)

Modèle	ELO Arena	Rang
Claude Opus 4.6	~1503	#1
GLM-5	1451	Haut de gamme

GLM-5 se classe #1 parmi les modèles open-weights dans la Text Arena et la Code Arena sur LMArena — une excellente démonstration de préférence humaine, même s’il reste derrière Opus 4.6 dans l’ensemble.

Comparaison des prix

L’un des atouts majeurs de GLM-5.1 est son coût.

Modèle	Entrée (par 1M tokens)	Sortie (par 1M tokens)
GLM-5.1	1,00 $	3,20 $
DeepSeek V3.2	0,27 $	1,10 $
Claude Sonnet 4.6	3,00 $	15,00 $
GPT-5.2	3,00 $	12,00 $
Claude Opus 4.6	15,00 $	75,00 $
Gemini 2.5 Pro	1,25 $	10,00 $

GLM-5.1 offre des performances proches du niveau frontier à une fraction du coût de Claude Opus 4.6 ou GPT-5.2. Seul DeepSeek le bat sur le pur tarif.

Zhipu AI propose également un abonnement GLM Coding Plan :

Lite : 3 $/mois pour 120 requêtes
Pro : 15 $/mois pour 600 requêtes

À comparer avec Claude Max à 100-200 $/mois.

Ce qui distingue GLM-5.1

1. Open-Weights à l’échelle frontier

GLM-5 est le premier modèle open-weights à atteindre le score 50 sur l’Artificial Analysis Intelligence Index. Les poids sont disponibles sur HuggingFace sous licence MIT (zai-org/GLM-5), déployables via vLLM, SGLang et KTransformers. Les poids de GLM-5.1 sont promis mais pas encore publiés.

2. Aucun Nvidia requis

Entraîné sur 100 000 puces Huawei Ascend 910B, GLM-5/5.1 prouve que l’entraînement d’IA frontier est possible sans matériel Nvidia. Cela a des implications géopolitiques qui dépassent la performance technique.

3. Post-entraînement agressif

Le gain de 28 % en codage de GLM-5 à 5.1 est entièrement issu de l’optimisation post-entraînement — même modèle de base, meilleur alignement. Le pipeline d’« alignement progressif » de Zhipu (SFT multi-tâches → RL multi-étapes → distillation cross-stage) produit de vrais gains.

4. Hallucination réduite

GLM-5 a montré une amélioration de 35 points sur l’AA-Omniscience Index par rapport à GLM-4.7, avec une meilleure efficacité des tokens (~110M tokens de sortie contre ~170M pour des tâches similaires). Il dit moins et obtient davantage de bonnes réponses.

Limitations

Texte uniquement. Pas d’entrée image, audio ou vidéo. Pour les tâches multimodales, vous aurez besoin de Claude, GPT ou Gemini.
Scores de codage auto-rapportés. L’affirmation des 94,6 %-d’Opus utilise Claude Code comme cadre d’évaluation. Une vérification indépendante est en attente.
Exigences de stockage. Le modèle complet en BF16 nécessite ~1,49 To — l’auto-hébergement n’est pas anodin.
Poids de GLM-5.1 pas encore publiés. Seul GLM-5 est actuellement open-weights.

Quel modèle choisir selon l’usage

Choisissez GLM-5.1 quand :

Vous avez besoin de performances de codage de niveau frontier à faible coût
L’open-weights / l’auto-hébergement est important pour votre déploiement
Vous construisez sur une infrastructure cloud chinoise (Huawei Ascend)
Le budget est une contrainte principale et DeepSeek ne répond pas à vos besoins

Choisissez Claude Opus 4.6 quand :

La capacité maximale sur toutes les tâches est la priorité
Vous avez besoin du meilleur raisonnement (GPQA 91,3 %, HLE 53,1 %, AIME 99,8 %)
Les workflows agentiques et les tâches complexes multi-étapes sont votre cas d’usage
Vous avez besoin de capacités multimodales

Choisissez GPT-5.2 quand :

Les scores mathématiques parfaits sont importants (AIME 100 %)
Vous êtes dans l’écosystème OpenAI
Vous avez besoin de fortes capacités multimodales et d’utilisation d’outils

Choisissez DeepSeek V3.2 quand :

L’efficacité des coûts est la priorité absolue (0,27 $/1,10 $ par million de tokens)
Open-source avec un codage solide (SWE-bench 73,1 %)
Vous voulez l’option frontier-adjacent la moins chère

Choisissez Qwen 3.5 quand :

Vous avez besoin des meilleures performances LiveCodeBench open-source (83,6 %)
SWE-bench 76,4 % en open-weights est suffisant
GPQA Diamond élevé (88,4 %) parmi les modèles ouverts

Conclusion

GLM-5.1 est un véritable modèle proche du niveau frontier. Avec 94,6 % des performances de codage de Claude Opus 4.6, 77,8 % sur SWE-bench Verified, et 1,00 $/3,20 $ par million de tokens, il offre une proposition de valeur convaincante — en particulier en tant que modèle open-weights.

La vraie histoire est ce que représente GLM-5.1 : un laboratoire chinois produisant une IA compétitive au niveau frontier sur du matériel domestique, la publiant en open-weights, et la tarifant de manière agressive. L’écart entre les meilleurs modèles à source fermée (Claude Opus 4.6, GPT-5.2) et les meilleurs modèles ouverts (GLM-5.1, Qwen 3.5, DeepSeek) continue de se réduire.

Pour les développeurs, cela signifie plus d’options à moindre coût. Pour l’industrie, cela signifie que le niveau frontier se densifie — et c’est une bonne chose pour tout le monde.

Qu’est-ce que GLM-5.1 ?

Quelles sont les nouveautés de la version 5.1

La comparaison des benchmarks

Raisonnement et connaissances

Codage

Préférence humaine (Chatbot Arena)

Comparaison des prix

Ce qui distingue GLM-5.1

1. Open-Weights à l’échelle frontier

2. Aucun Nvidia requis

3. Post-entraînement agressif

4. Hallucination réduite

Limitations

Quel modèle choisir selon l’usage

Conclusion

Articles associés

PixVerse V6 vient de sortir : contrôle de caméra, audio natif et génération vidéo multi-plans

Claude Mythos (Opus 5) Divulgué : Ce Que Nous Savons Pour l'Instant

Suno vs MiniMax Music vs Google Lyria 3 : Comparaison de la génération musicale par IA

Claude Opus 4.6 et Sonnet 4.6 : Tout ce que vous devez savoir

WaveSpeedAI vs Media.io Suppression de Filigrane : Lequel Tient Vraiment ses Promesses ?

Adieu Sora : Les 5 meilleures alternatives à Sora pour créer des vidéos IA en 2026