GLM-5.1 против Claude, GPT, Gemini, DeepSeek: как новейшая модель Zhipu AI выглядит на их фоне

Zhipu AI только что выпустила GLM-5.1 27 марта 2026 года, и цифры привлекают всеобщее внимание. Китайская лаборатория ИИ — которая вышла на IPO на фондовой бирже Гонконга в январе с оценкой в $31,3 млрд — заявляет, что их последняя модель достигает 94,6% производительности Claude Opus 4.6 в программировании, при этом являясь открытой по весам и обученной полностью без оборудования Nvidia.

Вот как GLM-5.1 сравнивается с каждой крупной пограничной моделью в 2026 году.

Что такое GLM-5.1?

GLM-5.1 — это постепенное улучшение GLM-5, сосредоточенное на повышении качества программирования и рассуждений через улучшенное дообучение. Базовая архитектура разделена с GLM-5:

Характеристика	Детали
Всего параметров	744B (Mixture-of-Experts)
Активных параметров	40–44B на токен
Архитектура экспертов	256 экспертов, 8 активных на токен
Контекстное окно	200K токенов
Макс. вывод	131 072 токена
Обучающие данные	28,5 триллиона токенов
Оборудование для обучения	100 000 чипов Huawei Ascend 910B
Лицензия	MIT (открытые веса)

История с инфраструктурой обучения весьма значительна: GLM-5 и 5.1 были обучены исключительно на чипах Huawei Ascend — без видеокарт Nvidia. Учитывая экспортный контроль США на чипы ИИ в Китай, это веха в достижении Китаем самодостаточности в области ИИ.

Что нового в 5.1

GLM-5.1 — это не новая архитектура, а постобучающее улучшение GLM-5, сосредоточенное на программировании:

Оценка в бенчмарке по программированию улучшилась с 35,4 (GLM-5) до 45,3 (GLM-5.1) — прирост 28%
Это ставит модель на уровень 94,6% от оценки Claude Opus 4.6 по программированию (45,3 против 47,9)
Улучшение достигнуто через прогрессивное выравнивание: многозадачный SFT → RL для рассуждений → RL для агентов → общий RL → кросс-этапная дистилляция на основе политики

Сравнение в бенчмарках

Вот как GLM-5/5.1 соотносится с каждой пограничной моделью по доступным данным бенчмарков:

Рассуждения и знания

Модель	GPQA Diamond	AIME 2025	MMLU	HLE
GPT-5.2 (OpenAI)	92,4%	100%	~90%	N/A
Claude Opus 4.6 (Anthropic)	91,3%	99,8%	91,1%	53,1%
Qwen 3.5 (Alibaba)	88,4%	N/A	88,5%	N/A
GLM-5 (Zhipu AI)	86,0%	92,7%	88–92%	30,5
DeepSeek V3.2	N/A	89,3%	~88,5%	N/A
Gemini 2.5 Pro (Google)	84,0%	86,7%	89,8%	18,8%
Llama 4 Maverick (Meta)	84,0%	83,0%	85,5%	N/A

GLM-5 уверенно держится в рассуждениях — особенно в AIME 2025 (92,7%), где превосходит DeepSeek, Gemini и Llama. Однако уступает Claude Opus 4.6 и GPT-5.2 в GPQA Diamond и Humanity’s Last Exam.

Программирование

Модель	SWE-bench Verified	LiveCodeBench	Оценка по программированию
Claude Opus 4.6	80,8%	N/A	47,9
GPT-5.2	80,0%	N/A	N/A
GLM-5.1	77,8%	52,0%	45,3
Qwen 3.5	76,4%	83,6%	N/A
DeepSeek V3.2	73,1%	74,1%	N/A
Gemini 2.5 Pro	63,8%	70,4%	N/A
Llama 4 Maverick	N/A	39,7–70,4%	N/A

Улучшение в программировании — главная особенность GLM-5.1. С результатом 77,8% в SWE-bench Verified она конкурирует с ведущими моделями с закрытым исходным кодом — отставая лишь на 3 пункта от Claude Opus 4.6 (80,8%) и GPT-5.2 (80,0%). Для модели с открытыми весами это исключительный результат.

Предпочтение людей (Chatbot Arena)

Модель	Arena ELO	Место
Claude Opus 4.6	~1503	#1
GLM-5	1451	Топ-уровень

GLM-5 занимает #1 среди моделей с открытыми весами как в Text Arena, так и в Code Arena на LMArena — сильный показатель по предпочтениям людей, даже несмотря на то что в целом уступает Opus 4.6.

Сравнение цен

Одно из главных преимуществ GLM-5.1 — стоимость.

Модель	Входные данные (за 1M токенов)	Выходные данные (за 1M токенов)
GLM-5.1	$1,00	$3,20
DeepSeek V3.2	$0,27	$1,10
Claude Sonnet 4.6	$3,00	$15,00
GPT-5.2	$3,00	$12,00
Claude Opus 4.6	$15,00	$75,00
Gemini 2.5 Pro	$1,25	$10,00

GLM-5.1 предлагает производительность, близкую к пограничному уровню, по доле стоимости Claude Opus 4.6 или GPT-5.2. Только DeepSeek дешевле в части чистого ценообразования.

Zhipu AI также предлагает подписку GLM Coding Plan:

Lite: $3/месяц за 120 запросов
Pro: $15/месяц за 600 запросов

Сравните это с Claude Max за $100–200/месяц.

Что выделяет GLM-5.1

1. Открытые веса на пограничном масштабе

GLM-5 — это первая модель с открытыми весами, набравшая 50 в индексе Artificial Analysis Intelligence Index. Веса доступны на HuggingFace под лицензией MIT (zai-org/GLM-5), развёртываемая через vLLM, SGLang и KTransformers. Веса GLM-5.1 обещаны, но ещё не выпущены.

2. Без Nvidia

Обученные на 100 000 чипах Huawei Ascend 910B, GLM-5/5.1 доказывают, что пограничное обучение ИИ возможно без оборудования Nvidia. Это имеет геополитические последствия, выходящие за рамки технического достижения.

3. Агрессивное дообучение

Улучшение в программировании на 28% от GLM-5 до 5.1 достигнуто исключительно за счёт оптимизации после обучения — та же базовая модель, более качественное выравнивание. Конвейер «прогрессивного выравнивания» Zhipu (многозадачный SFT → многоэтапный RL → кросс-этапная дистилляция) даёт реальные результаты.

4. Снижение галлюцинаций

GLM-5 показала улучшение на 35 пунктов в индексе AA-Omniscience по сравнению с GLM-4.7 при лучшей эффективности токенов (~110M выходных токенов против ~170M для аналогичных задач). Модель говорит меньше и делает больше правильно.

Ограничения

Только текст. Нет поддержки изображений, аудио или видео. Для мультимодальных задач потребуются Claude, GPT или Gemini.
Самооценка в программировании. Утверждение о 94,6% от Opus использует Claude Code в качестве среды оценки. Независимая верификация ожидается.
Требования к хранению. Полная модель в BF16 требует ~1,49 ТБ — самостоятельный хостинг нетривиален.
Веса GLM-5.1 ещё не выпущены. Открытые веса на данный момент доступны только для GLM-5.

Когда выбирать ту или иную модель

Выбирайте GLM-5.1, когда:

Вам нужна производительность в программировании на уровне передовых моделей при низкой стоимости
Открытые веса / самостоятельный хостинг важны для вашего развёртывания
Вы строите на китайской облачной инфраструктуре (Huawei Ascend)
Бюджет является первостепенным ограничением, а DeepSeek не отвечает вашим требованиям

Выбирайте Claude Opus 4.6, когда:

Максимальные возможности по всем задачам являются приоритетом
Вам нужны лучшие рассуждения (GPQA 91,3%, HLE 53,1%, AIME 99,8%)
Агентные рабочие процессы и сложные многошаговые задачи — ваш сценарий использования
Вам нужны мультимодальные возможности

Выбирайте GPT-5.2, когда:

Важны идеальные результаты по математике (AIME 100%)
Вы работаете в экосистеме OpenAI
Вам нужны сильные мультимодальные возможности и использование инструментов

Выбирайте DeepSeek V3.2, когда:

Ценовая эффективность — главный приоритет ($0,27/$1,10 за 1M токенов)
Открытый исходный код с сильным программированием (SWE-bench 73,1%)
Вам нужен самый дешёвый вариант, близкий к пограничному уровню

Выбирайте Qwen 3.5, когда:

Вам нужна лучшая производительность на LiveCodeBench среди открытых моделей (83,6%)
SWE-bench 76,4% при открытых весах достаточно
Сильный результат в GPQA Diamond (88,4%) среди открытых моделей

Итог

GLM-5.1 — это по-настоящему конкурентоспособная модель, близкая к пограничному уровню. С 94,6% производительности Claude Opus 4.6 в программировании, 77,8% в SWE-bench Verified и ценой $1,00/$3,20 за миллион токенов она предлагает убедительное соотношение ценности — особенно как модель с открытыми весами.

Более широкий смысл происходящего в том, что GLM-5.1 олицетворяет: китайская лаборатория создаёт конкурентоспособный с пограничными системами ИИ на отечественном оборудовании, выпускает его с открытыми весами и агрессивно устанавливает цены. Разрыв между лучшими моделями с закрытым исходным кодом (Claude Opus 4.6, GPT-5.2) и лучшими открытыми моделями (GLM-5.1, Qwen 3.5, DeepSeek) продолжает сокращаться.

Для разработчиков это означает больше вариантов при меньших затратах. Для отрасли — это значит, что пограничный уровень становится всё более конкурентным, а это хорошо для всех.

Что такое GLM-5.1?

Что нового в 5.1

Сравнение в бенчмарках

Рассуждения и знания

Программирование

Предпочтение людей (Chatbot Arena)

Сравнение цен

Что выделяет GLM-5.1

1. Открытые веса на пограничном масштабе

2. Без Nvidia

3. Агрессивное дообучение

4. Снижение галлюцинаций

Ограничения

Когда выбирать ту или иную модель

Итог

Похожие статьи

PixVerse V6 вышел: управление камерой, нативное аудио и многосцейное создание видео

Claude Mythos (Opus 5) утечка: что нам известно на данный момент

Suno vs MiniMax Music vs Google Lyria 3: Сравнение генераторов музыки на основе ИИ

Claude Opus 4.6 и Sonnet 4.6: всё, что нужно знать

WaveSpeedAI vs Media.io Удалитель водяных знаков: Какой из них действительно справляется?

Прощай, Sora: 5 лучших альтернатив Sora для создания AI-видео в 2026 году