Что такое GLM-5? Архитектура, скорость и доступ к API

Меня зовут Дора. В последнее время GLM-5 всё чаще мелькал в обсуждениях и тестах, пока я пыталась разобраться с обычной рабочей неделей: черновиками, спецификациями и небольшими задачами по работе с данными. В третий раз, когда я наткнулась на его упоминание рядом со словами «рассуждение» и «агентное поведение», я остановилась. Не потому что мне нужна была новая модель, а потому что мой текущий набор инструментов иногда тормозит на длинных задачах. Если замена могла немного облегчить нагрузку, я хотела почувствовать это на практике.

Доступно на WaveSpeedAI — прозрачная цена за токен, OpenAI-совместимый endpoint. GLM 5.1 API → · GLM 4.7 API → · Открыть Playground →

Поэтому несколько вечеров в начале февраля 2026 года я тестировала GLM-5 на реальных рабочих задачах: запутанных промптах, недоделанных набросках и скриптах, которые постоянно меняются. Вот что бросилось в глаза — спокойно, без фанфар.

GLM-5 в контексте — модель пятого поколения от Zhipu

Zhipu AI выпускает модели GLM уже давно. Если вы использовали GLM-3 или GLM-4, вы уже знаете этот стиль: уверенное многоязычное рассуждение, хорошая интуиция в программировании и практическая направленность — с ними можно работать, не подбирая каждый промпт особым образом.

GLM-5 — это следующий шаг. Я буду придерживаться того, что смогла наблюдать сама и что Zhipu публикует в открытых материалах. Если вам нужна официальная формулировка, документация — хорошая отправная точка: документация Zhipu AI (GLM) и сайт Zhipu.

745B параметров всего / 44B активных (архитектура MoE)

Главная особенность — архитектура. GLM-5 использует схему Mixture-of-Experts (MoE): большой пул «экспертов» (по данным, около 745B параметров суммарно), но на каждый токен активируется лишь их часть — примерно 44B в среднем. На практике это означает две вещи, которые я ощущала каждый день:

Задержка до первого токена напоминала плотную модель на 30–70B, а не гиганта на 700B. Мои промпты не зависали в начале, как это бывает с некоторыми слишком большими моделями.
Стабильность на длинных текстах была лучше, чем я ожидала. MoE иногда «уходит в сторону», но GLM-5 в основном держался курса в многошаговых набросках и рефакторинге кода — это не само собой разумеется.

Меня меньше интересуют цифры и больше — что они дают: активные вычисления достаточно велики для сохранения нюансов, а маршрутизация удерживает стоимость и скорость в рабочем диапазоне. Согласно обзору MoE от Hugging Face, разреженная активация позволяет моделям «масштабироваться до миллиардов или даже триллионов параметров», сохраняя приемлемые затраты на инференс. В нескольких длинных цепочках рассуждений (многоступенчатый анализ объёмом ~3–5 абзацев) я заметила меньше «забывчивых» переходов по сравнению с меньшими плотными моделями.

Ключевые улучшения: рассуждение, программирование, агентное поведение, художественный текст

Что изменилось для меня по сравнению с предыдущими GLM:

Рассуждение: структура в стиле цепочки мыслей (даже без явного запроса) стала появляться чаще. Я не всегда хотела видеть её дословно, но внутренняя логика ощущалась более устойчивой. Когда я просила модель покритиковать собственный план, она корректировала его без защитной реакции и без зацикливания.
Программирование: инкрементальные правки обрабатывались лучше, чем полная перезапись. Когда я просила внести изменения в стиле diff, контекст сохранялся вместо того, чтобы перепечатывать всё заново. Это экономило минуты — немного, но ощутимо.
Агентное поведение: задачи в стиле вызова инструментов (описать шаги, выявить недостающие входные данные, предложить повторные попытки) формулировались чётче. Я бы не предоставила ей беспрепятственный доступ к критическим системам, но как партнёр по планированию она справлялась компетентно.
Художественный текст: управление голосом улучшилось. Если я задавала тон («просто, медленно и по-доброму»), она удерживала его на нескольких страницах. Она всё ещё спотыкается, когда задание смешивает слишком много ограничений, но отклонение было незначительным.

Ничего из этого не казалось магией. Но это снизило ментальную нагрузку, которую обычно требуют мои промпты. Это важно во вторник после обеда, когда внимания уже не хватает.

Профиль скорости инференса — чего ожидать

Я тестировала GLM-5 через общий уровень инференса, а не через собственную консоль Zhipu, поэтому железо под капотом, скорее всего, варьировалось. Тем не менее в трёх сессиях (6–9 февраля 2026 г.) прослеживалась закономерность:

Задержка первого токена: как правило, менее секунды на коротких промптах; 1–2 секунды на более тяжёлых, инструментальных запросах с многоступенчатыми инструкциями. Это тот диапазон, при котором я не теряю нить мыслей.
Устойчивая пропускная способность: для длинных ответов я наблюдала стабильный поток в районе 30–60 токенов в секунду. Он не замирал посреди абзаца, как это делают некоторые MoE-модели под нагрузкой.
Стабильность при большом контексте: при ~8–16k токенов выводы оставались связными. В этих тестах я не доходила до максимального окна, поскольку реальные задачи редко этого требуют. Подробнее о размере окна — в разделе FAQ.

Компромиссы между задержкой, пропускной способностью и стоимостью

Архитектура MoE означает, что вы меняете простоту плотной модели на уровень маршрутизации, который (в идеале) окупается скоростью и стоимостью при том же уровне качества. На практике:

Если вас интересует быстрый диалог (технические спецификации, черновики писем, рефакторинг), GLM-5 ощущается достаточно отзывчивой для работы в потоке.
Если вы обрабатываете большие пакеты задач, пропускная способность справляется. Очень длинные документы я бы всё равно разбивала на части, чтобы избежать повторных запросов.
Стоимость зависит от провайдера. Активные 44B предполагают ценообразование на уровне «большой, но не гигант». Если ваш текущий стек использует небольшие плотные модели для быстрых задач и одну дорогую модель для сложных, GLM-5 может охватить больше промежуточных случаев с меньшим количеством переключений.

Одно замечание из практики: я не заметила большой разницы в скорости между «ресурсоёмкими» и «творческими» промптами. Некоторые модели замедляются, когда решают думать вслух. GLM-5 держала стабильный темп в любом случае.

Как получить доступ к GLM-5 через WaveSpeed API

Я использовала GLM-5 через WaveSpeed, который объединяет нескольких провайдеров за интерфейсом, совместимым с OpenAI. Никакого кода — только шаги, которые я проделала, простым языком.

ID модели, эндпоинт, настройка аутентификации

ID модели: я выбрала модель, указанную как «glm-5» в каталоге моделей WaveSpeed. Некоторые провайдеры добавляют теги размера или маршрутизации: я использовала стандартную.
Стиль эндпоинта: интерфейс воспроизводил знакомую схему chat.completions. Если вы интегрировали что-либо совместимое с OpenAI, замена обычно сводится к изменению базового URL и строки с названием модели.
Аутентификация: одного API-ключа в стандартном заголовке Authorization было достаточно. Я установила ключ на уровне проекта, чтобы журналы не смешивались. Ограничения запросов отображались в заголовках — удобно при настройке параллелизма.

Два практических замечания по настройке:

Temperature и top_p вели себя предсказуемо, но я получила лучшую стабильность, немного снизив temperature (0,5–0,7) на сложных промптах. Это уменьшило отклонения, не уплощая тон.
Максимальное количество выходных токенов: стандартное ограничение было консервативным. Если ответы обрываются, увеличьте его заранее — это экономит повторные запросы.

GLM-5 в контексте конкурентов (GPT-5, Claude 4.5, DeepSeek)

Сравнения быстро становятся шумными, поэтому я ограничусь практическими ощущениями, а не рейтинговыми играми.

По сравнению с линейкой GPT: семейство GPT по-прежнему выигрывает за счёт экосистемы, плагинов, примеров и сниппетов сообщества. В глубокой письменной работе и пошаговом рассуждении GLM-5 держалась наравне. В длинных набросках было меньше странностей с форматированием, чем у некоторых вариантов GPT, которые я использовала в последнее время, а инкрементальные правки кода выполнялись с меньшим вмешательством.
По сравнению с линейкой Claude: модели Claude, как правило, осторожны, хороши в сдержанности и резюмировании. GLM-5 соответствовала этой сдержанности на фактических переформулировках и была немного более готова предлагать следующие шаги без запроса. Если вы цените Claude за тон и систему защиты, возможно, вы всё равно предпочтёте её для деликатного контента.
По сравнению с DeepSeek: модели DeepSeek, которые я пробовала, ощущаются гибкими и экономически эффективными — отлично для высокообъёмных задач. GLM-5 казалась более затратной на один запрос, но устойчивее в многоступенчатом анализе. Если вы нагружаете модель множеством мелких запросов, DeepSeek может выиграть по соотношению цена/производительность; для меньшего числа глубоких запросов GLM-5 имела для меня смысл.

Ни один из вариантов не является правильным или неправильным — просто разные настройки по умолчанию. Если вы уже глубоко встроены в одну экосистему, аргументы в пользу переключения слабее. Если вы смешиваете модели в зависимости от задачи, GLM-5 — сильный кандидат на роль «думающей» модели.

FAQ — доступность, ценообразование, контекстное окно

Доступность: GLM-5 доступна через платформу Zhipu и ряд агрегаторов. Если вы находитесь за пределами Китая, задержка и доступность могут различаться в зависимости от провайдера. Я использовала WaveSpeed в период с 6 по 9 февраля 2026 г.
Ценообразование: оно варьируется. Агрегаторы устанавливают собственные тарифы, и вендоры со временем их корректируют. Я избегаю называть конкретные цифры, которые быстро устаревают. Проверяйте страницу с ценами вашего провайдера непосредственно перед запуском чего-либо в продакшн.
Контекстное окно: в своих тестах я не упиралась в лимит. Рабочие диапазоны около 8–16k токенов были стабильны. Если ваш рабочий процесс опирается на очень длинные контексты (полные PDF, транскрипты), уточните жёсткие ограничения в документации и следите за усечением.
Безопасность и модерация: я видела стандартные ограничения. Несколько неоднозначных запросов было отклонено до тех пор, пока я не уточнила использование. Если в вашей области есть строгие требования соответствия, сначала проведите небольшой аудит политик.
Для кого она подходит: если вам нужно меньше моделей и более стабильные результаты в задачах планирования, анализа и редактуры, GLM-5 подходит. Если вы оптимизируете под ультрадешёвые и ультрабыстрые микрозадачи, вам лучше послужит небольшая плотная модель или что-то в стиле DeepSeek.

Небольшое заключительное замечание с моего рабочего стола: то, что я оценила, — не грубая мощь, а отсутствие необходимости постоянно за ней следить. Это не заголовок для статьи, но именно такие незаметные улучшения накапливаются за неделю.

GLM-5 в контексте — модель пятого поколения от Zhipu

745B параметров всего / 44B активных (архитектура MoE)

Ключевые улучшения: рассуждение, программирование, агентное поведение, художественный текст

Профиль скорости инференса — чего ожидать

Компромиссы между задержкой, пропускной способностью и стоимостью

Как получить доступ к GLM-5 через WaveSpeed API

ID модели, эндпоинт, настройка аутентификации

GLM-5 в контексте конкурентов (GPT-5, Claude 4.5, DeepSeek)

FAQ — доступность, ценообразование, контекстное окно

Похожие статьи

GPT-5.6 появился в логах Codex от OpenAI — что это на самом деле означает

Лимиты запросов GPT Image 2 в 2026 году: что нужно знать разработчикам

Что такое RTK и почему важна эффективность токенов

CubeSandbox vs E2B для продакшн-агентов

Демо Gemini Omni утекли в сеть — вот что на самом деле умеет новая видеомодель Google

GPT Image 2 против GPT Image 1.5 для производственных команд