GLM-5 vs DeepSeek V3 vs GPT-5: Скорость и стоимость для разработчиков

Привет, я Дора. Меня подтолкнула мелочь: задача суммаризации, которая должна была занять пять минут, растянулась на пятнадцать, потому что первый ответ завис в самом начале. Не только вина модели — потоковая передача токенов, нагрузка на сервер, всё такое, — но это напомнило мне, что «точность» — не единственное, что портит рабочий день.

Доступно на WaveSpeedAI — прозрачная цена за токен, OpenAI-совместимый endpoint. GLM 5.1 API → · DeepSeek V3.2 API → · GPT-5.5 API →

И я задалась вопросом, который не давал покоя: в реальном мире, как в действительности ощущается использование GLM-5, DeepSeek и GPT-5? Не в диаграммах, а в плане времени отклика, предсказуемых затрат и надёжности, когда задача состоит из трёх-четырёх движущихся частей. Это моя попытка спокойно изложить всё это на бумаге — с оговоркой, что ваш стек, ваш регион и ваша терпимость к граничным случаям изменят картину.

Я постараюсь быть конкретной: GLM-5 против DeepSeek против GPT-5 — без хайпа и привычных скриншотов бенчмарков.

Что сравнивать помимо результатов бенчмарков

Бенчмарки — это проверка адекватности, а не конечная цель. Прогоны, на которые я обращаю внимание, не выглядят эффектно:

Задержка там, где это важно: время до первого токена (TTFT) и стабильная пропускная способность. Модель, которая «думает дольше», — не проблема; модель, которая простаивает ещё до начала работы, — часто является ею.
Затраты, соответствующие характеру работы: стоимость за миллион токенов — это отправная точка, но потери на контекст, повторные попытки и вызовы инструментов могут удвоить реальные расходы.
Режимы сбоев: как модели ведут себя, когда промпты немного не те, инструменты таймаутятся или входные данные длиннее обычного.
Поверхности управления: температура, которая действительно меняет вариативность, системные промпты, которые держатся, и вызов функций, который не ломается на граничных случаях схемы.
Деградация под нагрузкой: третий запуск за минуту или сотая задача в пакете.

В GLM-5, DeepSeek и GPT-5 я искала спокойную компетентность: модели, которые не удивляют меня в плохом смысле. Я также делала заметки о том, где каждая из них «гнётся», потому что проектировать с учётом известных ограничений проще, чем с учётом маркетинговых обещаний.

Скорость инференса (TTFT + пропускная способность)

Меня интересуют два момента: когда появляется первый токен и как быстро следуют остальные.

TTFT: это показывает, включается ли модель в работу или оставляет меня смотреть в экран. В интерактивных инструментах (черновики, чаты поддержки) быстрый TTFT ощущается как проявление уважения.
Пропускная способность: когда модель уже начала, может ли она поддерживать стабильный темп на длинных выводах без сбоев?

Что я наблюдала на практике (февраль 2026 года, смешанные эндпоинты US/EU):

GLM-5: стабильно быстрый TTFT на коротких промптах. На длинных контекстах (более ~30–40k токенов) стартует чуть медленнее, но стримит ровно. Хорошее ощущение «без лишних драм» для черновиков и редактирования кода. Если вам нужны конкретные цифры и сравнительные данные по задержкам, мне оказался полезен этот обзор бенчмарков скорости инференса GLM-5.
DeepSeek (в частности, варианты R1/V3): удивительно быстрый TTFT даже при лёгкой пакетной нагрузке. Изредка возникают микропаузы в середине стрима при очень длинных генерациях, но восстановление проходит плавно.
GPT-5: стартует медленнее, чем ожидаешь, на некоторых эндпоинтах, но затем компенсирует это очень стабильным стримингом. Когда задействован вызов инструментов, накладные расходы на передачу управления низкие, что помогает в многошаговых сценариях.

Оговорка, которую я повторяю себе постоянно: регион и шлюз имеют такое же значение, как и сама модель. Если вы маршрутизируете через агрегатор, включите стриминг и уменьшите max_tokens на исследовательских запусках. Это убирает «мёртвый эфир», не влияя на качество.

Стоимость за миллион токенов

Прайс-листы — это отправная точка, а не итоговый счёт. Три рычага изменили мои реальные затраты больше, чем я ожидала:

Потери на контекст: отправка одного и того же системного преамбула и схем инструментов при каждом вызове накапливается. Кэширование или обрезка схем быстро окупились.
Политика повторных попыток: одна агрессивная повторная попытка при ограничении частоты запросов может тихо удвоить расходы в часы пик.
Дисциплина длины вывода: установка разумного потолка max_tokens (и разрешение модели останавливаться на вызовах функций) сделала больше, чем любой промокод.

По состоянию на этот месяц:

DeepSeek активно снижает цены, особенно для вариантов с рассуждениями. Удобен для пакетных рабочих процессов при условии, что вы следите за периодическими вариациями стиля.
GLM-5 занимает прагматичную середину. Не самый дешёвый, но предсказуемый, а предсказуемость имеет ценность, когда финансовый отдел запрашивает прогнозы.
Ценообразование GPT-5 всё ещё находится в движении публично. На практике я моделировала бюджеты с диапазонами GPT-4.1/4o как нижней границей и добавляла запас для уровня рассуждений GPT-5. Если вам нужен жёсткий потолок сегодня, это та модель, которую нужно тщательно проверить.

Если вы сравниваете на равных условиях, измеряйте «эффективную стоимость на единицу полезного вывода», а не токены. Модель, которая стоит в 1,2 раза дороже, но вдвое сокращает количество правок, побеждает в моей книге.

Качество рассуждений и написания кода

Я не проводила рейтинговые соревнования. Я выполняла работу, которую делаю на самом деле: структурированное написание текстов, небольшие утилиты на коде и многоинструментальные агентные потоки. Наиболее важными оказались два аспекта.

Точность на отдельных задачах

На сфокусированных задачах (например, «преобразуй этот JSON в типизированный интерфейс», «сделай краткое изложение этих заметок встречи с пунктами действий») GPT-5 производил наиболее цельное впечатление. Ему требовалось меньше подсказок для соблюдения узких форматов, и вызов функций оставался в рамках схемы надёжнее.

DeepSeek хорошо справлялся с шагами рассуждения, которые он мог расписать. Я заметила небольшую склонность к избыточным объяснениям, что нормально для черновиков, но менее идеально для строгих выводов, если только я не ограничивала max_tokens и не указывала краткость. GLM-5 занял спокойную середину: меньше украшательств, стабильное следование инструкциям и добротное редактирование кода, когда изменения были небольшими. На холодных стартах с неоднозначными промптами он иногда проявлял больше осторожности, чем мне хотелось, но более чёткий системный промпт это исправлял.

Надёжность в многошаговых агентных сценариях

Когда в игру вступают инструменты — поиск, парсинг, чтение из баз данных — вопрос смещается с «Хороший ли ответ?» на «Выживет ли цикл?»

GPT-5: силён в планировании коротких цепочек и восстановлении при таймауте инструмента. Он повторно запрашивал отсутствующие поля вместо того, чтобы их угадывать. Мелочь, но большая помощь для рассудка.
DeepSeek: компактные, эффективные цепочки. Иногда уверенно уходил не туда, когда два инструмента пересекались по возможностям. Помогло добавление явных правил выбора инструментов в системный промпт.
GLM-5: очень стабилен при хорошо определённой схеме. Если инструмент возвращал неожиданные структуры, он предпочитал осторожность и запрашивал уточнение. Мне это нравится больше, чем молчаливые галлюцинации.

Поначалу это не экономило мне времени — настройка защитных механизмов заняла лишний вечер — но спустя несколько запусков я заметила снижение умственного напряжения. Меньше загадочных сбоев. Меньше вопросов «почему он так сделал?».

Лучшая модель по типу рабочей нагрузки

Это не церемония вручения короны. Это упражнение на соответствие. Вот где каждая из них лучше всего вписалась в мою рабочую неделю.

Приложения реального времени → ?

Если люди ждут по ту сторону экрана, я склоняюсь к быстрому TTFT и предсказуемому стилю.

Лёгкие чаты, черновики, сайдбары поддержки: GLM-5 или DeepSeek. Обе ощущаются живыми. DeepSeek чуть быстрее до первого токена; GLM-5 склонен поддерживать стабильный тон на протяжении сессий.
Ассистенты с интенсивным использованием инструментов: GPT-5. Планирование и устойчивость схем снижают зависания на граничных случаях. Если бюджет ограничен, прототипируйте с DeepSeek и переключайтесь на GPT-5 для наиболее важных эндпоинтов.

Пакетная обработка → ?

Для крупных офлайн-задач (сотни и тысячи элементов):

DeepSeek побеждает по экономической эффективности, если вы можете мириться с небольшим стилистическим дрейфом. Добавьте строгие схемы вывода и проверки различий.
GLM-5 — надёжный вариант по умолчанию, если вас беспокоят выбросы и вы готовы немного доплатить за единообразие.
GPT-5 — излишество, если задача не требует по-настоящему глубоких рассуждений или многоуровневого поиска на элемент. Когда это так, частота повторных запусков падает достаточно, чтобы оправдать его использование.

Мультимодальные конвейеры → ?

Для потоков изображение + текст или аудио + текст связующее звено важнее, чем брошюра.

GPT-5: наиболее чистые передачи между модальностями и инструментами в моих тестах. Если ваш конвейер перескакивает между извлечением, рассуждением и генерацией, эта плавность окупается.
DeepSeek: быстрый и компетентный. Для OCR + суммаризации или подписей + тегов он поддерживал низкую задержку.
GLM-5: надёжен в структурированных задачах преобразования изображения в текст. Если последовательность важнее изящества (думайте о парсинге счетов или очистке данных о продуктах), я тянулась к нему в первую очередь.

Одно замечание по архитектуре: транслируйте промежуточные результаты в логи. Это самый простой способ поймать несоответствия модальностей до того, как вы запустите всё в продакшн.

Как ценообразование WaveSpeed сравнивается для всех трёх моделей

Я пробовала WaveSpeed как слой контроля цен — не серебряную пулю, а просто более спокойный способ рассуждать о расходах.

Что бросилось в глаза — не магическая скидка, а механика:

Закреплённая маршрутизация: GPT-5 для эндпоинтов, которым нужно его планирование, прямая суммаризация — DeepSeek, GLM-5 — для структурированных правок. Один счёт, меньше неожиданностей.
Кэширование контекста: системные промпты и схемы инструментов не пересылались при каждом вызове. В моих прогонах это сократило входные токены в среднем на треть. Не эффектно, но именно такая экономия накапливается.
Защитные механизмы на краю: если модель отклонялась от схемы, WaveSpeed отлавливал это на раннем этапе и повторял попытку у того же провайдера. Никакой «рулетки провайдеров» посреди задачи.

По ценам сравнение простое:

Если вы уже жонглируете двумя и более провайдерами, маршрутизация и кэширование WaveSpeed могут снизить вашу эффективную «стоимость на единицу полезного вывода» — даже если прайс-лист не меняется.
Если вы используете только одну модель и ваши промпты редко меняются, вы, возможно, не увидите особой пользы. В этом случае достаточно прямого API-ценообразования плюс ваше собственное кэширование.

Я думаю о WaveSpeed не как о способе получить более дешёвые токены, а как о способе тратить их меньше впустую.

Если вы сталкиваетесь с похожими ограничениями, стоит присмотреться. А если вы довольны одним провайдером — тоже хорошо: иногда самый тихий стек — лучший.