GLM-5.1 против Claude, GPT, Gemini, DeepSeek: как новейшая модель Zhipu AI выглядит на их фоне
GLM-5.1 от Zhipu AI претендует на 94,6% производительности Claude Opus 4.6 в программировании — обучена исключительно на чипах Huawei и распространяется с открытыми весами. Вот как она сравнивается с каждой из ведущих LLM в 2026 году.
Zhipu AI только что выпустила GLM-5.1 27 марта 2026 года, и цифры привлекают всеобщее внимание. Китайская лаборатория ИИ — которая вышла на IPO на фондовой бирже Гонконга в январе с оценкой в $31,3 млрд — заявляет, что их последняя модель достигает 94,6% производительности Claude Opus 4.6 в программировании, при этом являясь открытой по весам и обученной полностью без оборудования Nvidia.
Вот как GLM-5.1 сравнивается с каждой крупной пограничной моделью в 2026 году.
Что такое GLM-5.1?
GLM-5.1 — это постепенное улучшение GLM-5, сосредоточенное на повышении качества программирования и рассуждений через улучшенное дообучение. Базовая архитектура разделена с GLM-5:
| Характеристика | Детали |
|---|---|
| Всего параметров | 744B (Mixture-of-Experts) |
| Активных параметров | 40–44B на токен |
| Архитектура экспертов | 256 экспертов, 8 активных на токен |
| Контекстное окно | 200K токенов |
| Макс. вывод | 131 072 токена |
| Обучающие данные | 28,5 триллиона токенов |
| Оборудование для обучения | 100 000 чипов Huawei Ascend 910B |
| Лицензия | MIT (открытые веса) |
История с инфраструктурой обучения весьма значительна: GLM-5 и 5.1 были обучены исключительно на чипах Huawei Ascend — без видеокарт Nvidia. Учитывая экспортный контроль США на чипы ИИ в Китай, это веха в достижении Китаем самодостаточности в области ИИ.
Что нового в 5.1
GLM-5.1 — это не новая архитектура, а постобучающее улучшение GLM-5, сосредоточенное на программировании:
- Оценка в бенчмарке по программированию улучшилась с 35,4 (GLM-5) до 45,3 (GLM-5.1) — прирост 28%
- Это ставит модель на уровень 94,6% от оценки Claude Opus 4.6 по программированию (45,3 против 47,9)
- Улучшение достигнуто через прогрессивное выравнивание: многозадачный SFT → RL для рассуждений → RL для агентов → общий RL → кросс-этапная дистилляция на основе политики
Сравнение в бенчмарках
Вот как GLM-5/5.1 соотносится с каждой пограничной моделью по доступным данным бенчмарков:
Рассуждения и знания
| Модель | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2 (OpenAI) | 92,4% | 100% | ~90% | N/A |
| Claude Opus 4.6 (Anthropic) | 91,3% | 99,8% | 91,1% | 53,1% |
| Qwen 3.5 (Alibaba) | 88,4% | N/A | 88,5% | N/A |
| GLM-5 (Zhipu AI) | 86,0% | 92,7% | 88–92% | 30,5 |
| DeepSeek V3.2 | N/A | 89,3% | ~88,5% | N/A |
| Gemini 2.5 Pro (Google) | 84,0% | 86,7% | 89,8% | 18,8% |
| Llama 4 Maverick (Meta) | 84,0% | 83,0% | 85,5% | N/A |
GLM-5 уверенно держится в рассуждениях — особенно в AIME 2025 (92,7%), где превосходит DeepSeek, Gemini и Llama. Однако уступает Claude Opus 4.6 и GPT-5.2 в GPQA Diamond и Humanity’s Last Exam.
Программирование
| Модель | SWE-bench Verified | LiveCodeBench | Оценка по программированию |
|---|---|---|---|
| Claude Opus 4.6 | 80,8% | N/A | 47,9 |
| GPT-5.2 | 80,0% | N/A | N/A |
| GLM-5.1 | 77,8% | 52,0% | 45,3 |
| Qwen 3.5 | 76,4% | 83,6% | N/A |
| DeepSeek V3.2 | 73,1% | 74,1% | N/A |
| Gemini 2.5 Pro | 63,8% | 70,4% | N/A |
| Llama 4 Maverick | N/A | 39,7–70,4% | N/A |
Улучшение в программировании — главная особенность GLM-5.1. С результатом 77,8% в SWE-bench Verified она конкурирует с ведущими моделями с закрытым исходным кодом — отставая лишь на 3 пункта от Claude Opus 4.6 (80,8%) и GPT-5.2 (80,0%). Для модели с открытыми весами это исключительный результат.
Предпочтение людей (Chatbot Arena)
| Модель | Arena ELO | Место |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | Топ-уровень |
GLM-5 занимает #1 среди моделей с открытыми весами как в Text Arena, так и в Code Arena на LMArena — сильный показатель по предпочтениям людей, даже несмотря на то что в целом уступает Opus 4.6.
Сравнение цен
Одно из главных преимуществ GLM-5.1 — стоимость.
| Модель | Входные данные (за 1M токенов) | Выходные данные (за 1M токенов) |
|---|---|---|
| GLM-5.1 | $1,00 | $3,20 |
| DeepSeek V3.2 | $0,27 | $1,10 |
| Claude Sonnet 4.6 | $3,00 | $15,00 |
| GPT-5.2 | $3,00 | $12,00 |
| Claude Opus 4.6 | $15,00 | $75,00 |
| Gemini 2.5 Pro | $1,25 | $10,00 |
GLM-5.1 предлагает производительность, близкую к пограничному уровню, по доле стоимости Claude Opus 4.6 или GPT-5.2. Только DeepSeek дешевле в части чистого ценообразования.
Zhipu AI также предлагает подписку GLM Coding Plan:
- Lite: $3/месяц за 120 запросов
- Pro: $15/месяц за 600 запросов
Сравните это с Claude Max за $100–200/месяц.
Что выделяет GLM-5.1
1. Открытые веса на пограничном масштабе
GLM-5 — это первая модель с открытыми весами, набравшая 50 в индексе Artificial Analysis Intelligence Index. Веса доступны на HuggingFace под лицензией MIT (zai-org/GLM-5), развёртываемая через vLLM, SGLang и KTransformers. Веса GLM-5.1 обещаны, но ещё не выпущены.
2. Без Nvidia
Обученные на 100 000 чипах Huawei Ascend 910B, GLM-5/5.1 доказывают, что пограничное обучение ИИ возможно без оборудования Nvidia. Это имеет геополитические последствия, выходящие за рамки технического достижения.
3. Агрессивное дообучение
Улучшение в программировании на 28% от GLM-5 до 5.1 достигнуто исключительно за счёт оптимизации после обучения — та же базовая модель, более качественное выравнивание. Конвейер «прогрессивного выравнивания» Zhipu (многозадачный SFT → многоэтапный RL → кросс-этапная дистилляция) даёт реальные результаты.
4. Снижение галлюцинаций
GLM-5 показала улучшение на 35 пунктов в индексе AA-Omniscience по сравнению с GLM-4.7 при лучшей эффективности токенов (~110M выходных токенов против ~170M для аналогичных задач). Модель говорит меньше и делает больше правильно.
Ограничения
- Только текст. Нет поддержки изображений, аудио или видео. Для мультимодальных задач потребуются Claude, GPT или Gemini.
- Самооценка в программировании. Утверждение о 94,6% от Opus использует Claude Code в качестве среды оценки. Независимая верификация ожидается.
- Требования к хранению. Полная модель в BF16 требует ~1,49 ТБ — самостоятельный хостинг нетривиален.
- Веса GLM-5.1 ещё не выпущены. Открытые веса на данный момент доступны только для GLM-5.
Когда выбирать ту или иную модель
Выбирайте GLM-5.1, когда:
- Вам нужна производительность в программировании на уровне передовых моделей при низкой стоимости
- Открытые веса / самостоятельный хостинг важны для вашего развёртывания
- Вы строите на китайской облачной инфраструктуре (Huawei Ascend)
- Бюджет является первостепенным ограничением, а DeepSeek не отвечает вашим требованиям
Выбирайте Claude Opus 4.6, когда:
- Максимальные возможности по всем задачам являются приоритетом
- Вам нужны лучшие рассуждения (GPQA 91,3%, HLE 53,1%, AIME 99,8%)
- Агентные рабочие процессы и сложные многошаговые задачи — ваш сценарий использования
- Вам нужны мультимодальные возможности
Выбирайте GPT-5.2, когда:
- Важны идеальные результаты по математике (AIME 100%)
- Вы работаете в экосистеме OpenAI
- Вам нужны сильные мультимодальные возможности и использование инструментов
Выбирайте DeepSeek V3.2, когда:
- Ценовая эффективность — главный приоритет ($0,27/$1,10 за 1M токенов)
- Открытый исходный код с сильным программированием (SWE-bench 73,1%)
- Вам нужен самый дешёвый вариант, близкий к пограничному уровню
Выбирайте Qwen 3.5, когда:
- Вам нужна лучшая производительность на LiveCodeBench среди открытых моделей (83,6%)
- SWE-bench 76,4% при открытых весах достаточно
- Сильный результат в GPQA Diamond (88,4%) среди открытых моделей
Итог
GLM-5.1 — это по-настоящему конкурентоспособная модель, близкая к пограничному уровню. С 94,6% производительности Claude Opus 4.6 в программировании, 77,8% в SWE-bench Verified и ценой $1,00/$3,20 за миллион токенов она предлагает убедительное соотношение ценности — особенно как модель с открытыми весами.
Более широкий смысл происходящего в том, что GLM-5.1 олицетворяет: китайская лаборатория создаёт конкурентоспособный с пограничными системами ИИ на отечественном оборудовании, выпускает его с открытыми весами и агрессивно устанавливает цены. Разрыв между лучшими моделями с закрытым исходным кодом (Claude Opus 4.6, GPT-5.2) и лучшими открытыми моделями (GLM-5.1, Qwen 3.5, DeepSeek) продолжает сокращаться.
Для разработчиков это означает больше вариантов при меньших затратах. Для отрасли — это значит, что пограничный уровень становится всё более конкурентным, а это хорошо для всех.



