← Блог

GLM-5.1 против Claude, GPT, Gemini, DeepSeek: как новейшая модель Zhipu AI выглядит на их фоне

GLM-5.1 от Zhipu AI претендует на 94,6% производительности Claude Opus 4.6 в программировании — обучена исключительно на чипах Huawei и распространяется с открытыми весами. Вот как она сравнивается с каждой из ведущих LLM в 2026 году.

7 min read

Zhipu AI только что выпустила GLM-5.1 27 марта 2026 года, и цифры привлекают всеобщее внимание. Китайская лаборатория ИИ — которая вышла на IPO на фондовой бирже Гонконга в январе с оценкой в $31,3 млрд — заявляет, что их последняя модель достигает 94,6% производительности Claude Opus 4.6 в программировании, при этом являясь открытой по весам и обученной полностью без оборудования Nvidia.

Вот как GLM-5.1 сравнивается с каждой крупной пограничной моделью в 2026 году.

Что такое GLM-5.1?

GLM-5.1 — это постепенное улучшение GLM-5, сосредоточенное на повышении качества программирования и рассуждений через улучшенное дообучение. Базовая архитектура разделена с GLM-5:

ХарактеристикаДетали
Всего параметров744B (Mixture-of-Experts)
Активных параметров40–44B на токен
Архитектура экспертов256 экспертов, 8 активных на токен
Контекстное окно200K токенов
Макс. вывод131 072 токена
Обучающие данные28,5 триллиона токенов
Оборудование для обучения100 000 чипов Huawei Ascend 910B
ЛицензияMIT (открытые веса)

История с инфраструктурой обучения весьма значительна: GLM-5 и 5.1 были обучены исключительно на чипах Huawei Ascend — без видеокарт Nvidia. Учитывая экспортный контроль США на чипы ИИ в Китай, это веха в достижении Китаем самодостаточности в области ИИ.

Что нового в 5.1

GLM-5.1 — это не новая архитектура, а постобучающее улучшение GLM-5, сосредоточенное на программировании:

  • Оценка в бенчмарке по программированию улучшилась с 35,4 (GLM-5) до 45,3 (GLM-5.1) — прирост 28%
  • Это ставит модель на уровень 94,6% от оценки Claude Opus 4.6 по программированию (45,3 против 47,9)
  • Улучшение достигнуто через прогрессивное выравнивание: многозадачный SFT → RL для рассуждений → RL для агентов → общий RL → кросс-этапная дистилляция на основе политики

Сравнение в бенчмарках

Вот как GLM-5/5.1 соотносится с каждой пограничной моделью по доступным данным бенчмарков:

Рассуждения и знания

МодельGPQA DiamondAIME 2025MMLUHLE
GPT-5.2 (OpenAI)92,4%100%~90%N/A
Claude Opus 4.6 (Anthropic)91,3%99,8%91,1%53,1%
Qwen 3.5 (Alibaba)88,4%N/A88,5%N/A
GLM-5 (Zhipu AI)86,0%92,7%88–92%30,5
DeepSeek V3.2N/A89,3%~88,5%N/A
Gemini 2.5 Pro (Google)84,0%86,7%89,8%18,8%
Llama 4 Maverick (Meta)84,0%83,0%85,5%N/A

GLM-5 уверенно держится в рассуждениях — особенно в AIME 2025 (92,7%), где превосходит DeepSeek, Gemini и Llama. Однако уступает Claude Opus 4.6 и GPT-5.2 в GPQA Diamond и Humanity’s Last Exam.

Программирование

МодельSWE-bench VerifiedLiveCodeBenchОценка по программированию
Claude Opus 4.680,8%N/A47,9
GPT-5.280,0%N/AN/A
GLM-5.177,8%52,0%45,3
Qwen 3.576,4%83,6%N/A
DeepSeek V3.273,1%74,1%N/A
Gemini 2.5 Pro63,8%70,4%N/A
Llama 4 MaverickN/A39,7–70,4%N/A

Улучшение в программировании — главная особенность GLM-5.1. С результатом 77,8% в SWE-bench Verified она конкурирует с ведущими моделями с закрытым исходным кодом — отставая лишь на 3 пункта от Claude Opus 4.6 (80,8%) и GPT-5.2 (80,0%). Для модели с открытыми весами это исключительный результат.

Предпочтение людей (Chatbot Arena)

МодельArena ELOМесто
Claude Opus 4.6~1503#1
GLM-51451Топ-уровень

GLM-5 занимает #1 среди моделей с открытыми весами как в Text Arena, так и в Code Arena на LMArena — сильный показатель по предпочтениям людей, даже несмотря на то что в целом уступает Opus 4.6.

Сравнение цен

Одно из главных преимуществ GLM-5.1 — стоимость.

МодельВходные данные (за 1M токенов)Выходные данные (за 1M токенов)
GLM-5.1$1,00$3,20
DeepSeek V3.2$0,27$1,10
Claude Sonnet 4.6$3,00$15,00
GPT-5.2$3,00$12,00
Claude Opus 4.6$15,00$75,00
Gemini 2.5 Pro$1,25$10,00

GLM-5.1 предлагает производительность, близкую к пограничному уровню, по доле стоимости Claude Opus 4.6 или GPT-5.2. Только DeepSeek дешевле в части чистого ценообразования.

Zhipu AI также предлагает подписку GLM Coding Plan:

  • Lite: $3/месяц за 120 запросов
  • Pro: $15/месяц за 600 запросов

Сравните это с Claude Max за $100–200/месяц.

Что выделяет GLM-5.1

1. Открытые веса на пограничном масштабе

GLM-5 — это первая модель с открытыми весами, набравшая 50 в индексе Artificial Analysis Intelligence Index. Веса доступны на HuggingFace под лицензией MIT (zai-org/GLM-5), развёртываемая через vLLM, SGLang и KTransformers. Веса GLM-5.1 обещаны, но ещё не выпущены.

2. Без Nvidia

Обученные на 100 000 чипах Huawei Ascend 910B, GLM-5/5.1 доказывают, что пограничное обучение ИИ возможно без оборудования Nvidia. Это имеет геополитические последствия, выходящие за рамки технического достижения.

3. Агрессивное дообучение

Улучшение в программировании на 28% от GLM-5 до 5.1 достигнуто исключительно за счёт оптимизации после обучения — та же базовая модель, более качественное выравнивание. Конвейер «прогрессивного выравнивания» Zhipu (многозадачный SFT → многоэтапный RL → кросс-этапная дистилляция) даёт реальные результаты.

4. Снижение галлюцинаций

GLM-5 показала улучшение на 35 пунктов в индексе AA-Omniscience по сравнению с GLM-4.7 при лучшей эффективности токенов (~110M выходных токенов против ~170M для аналогичных задач). Модель говорит меньше и делает больше правильно.

Ограничения

  • Только текст. Нет поддержки изображений, аудио или видео. Для мультимодальных задач потребуются Claude, GPT или Gemini.
  • Самооценка в программировании. Утверждение о 94,6% от Opus использует Claude Code в качестве среды оценки. Независимая верификация ожидается.
  • Требования к хранению. Полная модель в BF16 требует ~1,49 ТБ — самостоятельный хостинг нетривиален.
  • Веса GLM-5.1 ещё не выпущены. Открытые веса на данный момент доступны только для GLM-5.

Когда выбирать ту или иную модель

Выбирайте GLM-5.1, когда:

  • Вам нужна производительность в программировании на уровне передовых моделей при низкой стоимости
  • Открытые веса / самостоятельный хостинг важны для вашего развёртывания
  • Вы строите на китайской облачной инфраструктуре (Huawei Ascend)
  • Бюджет является первостепенным ограничением, а DeepSeek не отвечает вашим требованиям

Выбирайте Claude Opus 4.6, когда:

  • Максимальные возможности по всем задачам являются приоритетом
  • Вам нужны лучшие рассуждения (GPQA 91,3%, HLE 53,1%, AIME 99,8%)
  • Агентные рабочие процессы и сложные многошаговые задачи — ваш сценарий использования
  • Вам нужны мультимодальные возможности

Выбирайте GPT-5.2, когда:

  • Важны идеальные результаты по математике (AIME 100%)
  • Вы работаете в экосистеме OpenAI
  • Вам нужны сильные мультимодальные возможности и использование инструментов

Выбирайте DeepSeek V3.2, когда:

  • Ценовая эффективность — главный приоритет ($0,27/$1,10 за 1M токенов)
  • Открытый исходный код с сильным программированием (SWE-bench 73,1%)
  • Вам нужен самый дешёвый вариант, близкий к пограничному уровню

Выбирайте Qwen 3.5, когда:

  • Вам нужна лучшая производительность на LiveCodeBench среди открытых моделей (83,6%)
  • SWE-bench 76,4% при открытых весах достаточно
  • Сильный результат в GPQA Diamond (88,4%) среди открытых моделей

Итог

GLM-5.1 — это по-настоящему конкурентоспособная модель, близкая к пограничному уровню. С 94,6% производительности Claude Opus 4.6 в программировании, 77,8% в SWE-bench Verified и ценой $1,00/$3,20 за миллион токенов она предлагает убедительное соотношение ценности — особенно как модель с открытыми весами.

Более широкий смысл происходящего в том, что GLM-5.1 олицетворяет: китайская лаборатория создаёт конкурентоспособный с пограничными системами ИИ на отечественном оборудовании, выпускает его с открытыми весами и агрессивно устанавливает цены. Разрыв между лучшими моделями с закрытым исходным кодом (Claude Opus 4.6, GPT-5.2) и лучшими открытыми моделями (GLM-5.1, Qwen 3.5, DeepSeek) продолжает сокращаться.

Для разработчиков это означает больше вариантов при меньших затратах. Для отрасли — это значит, что пограничный уровень становится всё более конкурентным, а это хорошо для всех.

Поделиться