DeepSeek V4: стоимость за миллион токенов — полный калькулятор

Привет, ребята. Это Дора.

Прошлый месяц я провела три недели, запуская DeepSeek V4 в продакшене. Итоговый счёт составил $18. Та же нагрузка на GPT-4o обошлась бы примерно в $380. На Claude Opus 4.5 — ближе к $720.

Эта разница заставила меня как следует разобраться в цифрах — не чтобы радоваться дешёвым вычислениям, а чтобы понять, выдержит ли ценообразование реальную нагрузку и где прячутся скрытые расходы.

Официальные цены на момент запуска (проверенная таблица)

Официальные тарифы DeepSeek V4 вступили в силу:

Стандартные тарифы (за 1M токенов):

Входящие токены (промах кэша): $0.30
Входящие токены (попадание в кэш): $0.03
Исходящие токены: $0.50

Тарифы в нерабочее время (за 1M токенов):

Входящие токены (промах кэша): $0.15
Входящие токены (попадание в кэш): $0.015
Исходящие токены: $0.25

Скидка при попадании в кэш составляет 90%. Это означает, что если структурировать промпты с повторяющимися элементами — системными инструкциями, определениями инструментов, шаблонами документов — стоимость резко падает после первого запроса.

Входящие токены — стандартный тариф vs попадание в кэш vs нерабочее время

Попадание в кэш происходит, когда DeepSeek распознаёт, что часть вашего промпта была недавно обработана, и повторно использует результаты вычислений. Это работает только с последовательными префиксами — системными инструкциями или определениями инструментов, которые не меняются между вызовами.

Я протестировала это на суммаризаторе исследований. Системный промпт и схема извлечения данных оставались неизменными от запуска к запуску. После первого запроса процент попаданий в кэш держался на уровне 65–70%. Эффективная стоимость входящих токенов снизилась с $0.30 примерно до $0.12 за миллион токенов.

Тарификация в нерабочее время действует приблизительно с 23:00 до 07:00 по пекинскому времени (UTC+8) с 50% скидкой на все типы токенов. Я перенесла еженедельные пакетные задания на 02:00 по пекинскому времени. Та же нагрузка — вдвое дешевле. Для пакетной обработки задержки не имели значения, поэтому компромисс был очевиден.

Исходящие токены — стандартный тариф vs нерабочее время

Исходящие токены стоят дороже, потому что генерация требует последовательных вычислений — модель не может распараллелить вывод так, как она обрабатывает входящие данные. При $0.50 за миллион (стандарт) или $0.25 (нерабочее время) вы всё равно платите меньше, чем большинство моделей берут только за входящие токены.

GPT-4o берёт $2.50 за миллион исходящих токенов. Claude Opus 4.5 — $15. В моём случае — генерация резюме объёмом 800–1200 токенов из входных данных объёмом 3000–5000 токенов — стоимость исходящих токенов оставалась ниже стоимости входящих даже без преимуществ кэширования.

Сравнение цен V4 и V3

V4 вышел с ценами $0.30 за входящие / $0.50 за исходящие, тогда как V3 при запуске в конце декабря 2024 года стоил $0.14 / $0.28. В абсолютном выражении это примерно на 15% дороже.

Рост отражает реальные архитектурные улучшения: более длинные контекстные окна (до 1M токенов), повышенную точность вызова инструментов и гибридные режимы рассуждений, недоступные в V3. Изменилось не только ценообразование, но и соотношение возможностей и стоимости. V4 набирает 81% на SWE-bench Verified против 69% у V3, то есть вы получаете значительно лучшую производительность всего за 1.14x цены.

Почему DeepSeek в 20–50 раз дешевле OpenAI

Разрыв в ценах — не маркетинг. Это архитектурная эффективность, выраженная в операционных расходах.

Архитектура MoE: 671B всего, 37B активных

DeepSeek V4 использует Mixture-of-Experts с 671 миллиардом параметров в общей сложности, но активирует лишь 37 миллиардов на каждый токен. При поступлении запроса механизм маршрутизации модели выбирает 8 специализированных экспертов из пула 256, плюс один общий эксперт, обрабатывающий всё. Эти 9 экспертов выполняют вычисления. Остальные 247 остаются неактивными.

Это важно, потому что стоимость вычислений масштабируется в зависимости от активных параметров, а не от их общего числа. Сравните с плотными моделями вроде GPT-4, которые активируют все параметры для каждого токена. Модель с 405 миллиардами параметров, как Llama 3.1, требует около 2448 GFLOPs на токен. DeepSeek V4 требует примерно 250 GFLOPs — почти в 10 раз меньше вычислений.

Эта эффективность проявляется и в требованиях к развёртыванию. V4 может работать на одном сервере с двумя RTX 4090 для небольших нагрузок. Плотные модели сопоставимых возможностей требуют многоузловых GPU-кластеров. Аппаратные расходы накапливаются с миллионами API-вызовов, и эта экономия отражается в ценообразовании. Часть преимуществ эффективности обусловлена архитектурой manifold-constrained hyper-connections (mHC) от DeepSeek, которая оптимизирует маршрутизацию между слоями экспертов.

Стоимость обучения ($5.6M против $100M+ у GPT-4)

DeepSeek обучил V3 за $5.6 миллиона, использовав 2.788 миллиона часов работы GPU H800 на 14.8 триллиона токенов. По отраслевым оценкам, стоимость обучения GPT-4 составила около $100 миллионов или больше — примерно в 18 раз больше.

Разрыв объясняется двумя факторами: архитектура MoE обучается быстрее, чем плотные модели при аналогичном уровне возможностей, и DeepSeek использовал GPU H800, которые дешевле H100, но при этом обеспечивают достаточную производительность.

Низкие затраты на обучение автоматически не означают низкие цены на инференс — компании могут устанавливать любые рыночные цены. Однако DeepSeek последовательно передаёт экономию клиентам. V2, V3 и V4 — все были запущены ниже ставок фронтирных моделей, при этом соответствуя или превосходя их по ключевым бенчмаркам. Эта закономерность говорит о том, что ценообразование устойчиво, а не временно.

Шаблон калькулятора реальных затрат

Входные данные: дневные токены, процент попаданий в кэш, доля нерабочего времени

Переменные, которые имеют значение:

Общее количество входящих/исходящих токенов в день
Процент попаданий в кэш (0–100%)
Доля нерабочего времени (0–100%)
Дней в месяце

Расчёт прост:

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Применить скидку нерабочего времени (50% в нерабочие часы)
monthly_cost = adjusted_daily_cost × 30

Пример: нагрузка 10M токенов в день

Рабочая нагрузка, обрабатывающая 10 миллионов токенов в день, как правило, делится примерно на 6 миллионов входящих и 4 миллиона исходящих токенов. Такое соотношение типично для задач суммаризации, рерайтинга или генерации контента.

Допущения:

40% попаданий в кэш (консервативная оценка для рабочих процессов с постоянными системными промптами)
30% использования в нерабочее время (пакетные задания, запланированные на ночь)
Стандартные тарифы V4

Разбивка ежедневных затрат:

Кэшируемые входящие: (6M × 0.40 × $0.03) / 1M = $0.072
Некэшируемые входящие: (6M × 0.60 × $0.30) / 1M = $1.08
Исходящие: (4M × $0.50) / 1M = $2.00
Итого до применения скидки нерабочего времени: $3.15

С 30% планированием в нерабочее время:

Стандартная доля (70%): $2.21
Доля нерабочего времени (30% × скидка 50%): $0.47
Скорректированный суточный итог: $2.68/день или $80.40/месяц

Для сравнения, та же нагрузка 10M токенов в день обойдётся:

GPT-4o: ~$450/месяц
Claude Opus 4.5: ~$900/месяц
DeepSeek V4: $80.40/месяц

Это снижение затрат на 82–91% при сопоставимых возможностях.

Пример: RAG-пайплайн с 80% попаданий в кэш

Пайплайны с дополнением на основе извлечения (RAG) демонстрируют более высокий процент попаданий в кэш, поскольку извлечённый контекст часто пересекается между похожими запросами.

RAG-система, отвечающая на 1000 запросов в день:

8000 входящих токенов на запрос (2000 для вопроса пользователя + 6000 для извлечённого контекста)
500 исходящих токенов на запрос (сгенерированный ответ)
80% попаданий в кэш (фрагменты документов повторяются между запросами)
0% нерабочего времени (пользовательский интерфейс, требующий немедленного ответа)

Суточные затраты:

Всего входящих: 8M токенов
Кэшируемые: (8M × 0.80 × $0.03) / 1M = $0.192
Некэшируемые: (8M × 0.20 × $0.30) / 1M = $0.48
Исходящие: (500K × $0.50) / 1M = $0.25
Суточный итог: $0.92
Месячный итог: $27.66

Без кэширования эта нагрузка обошлась бы в $122.50/месяц. Правильная оптимизация кэширования экономит около $95/месяц — снижение на 77%. Вот почему структурированные, воспроизводимые промпты важнее, чем может казаться.

Скрытые расходы, которые нужно учесть

Накладные расходы на повторные попытки при превышении лимитов

DeepSeek устанавливает ограничения скорости около ~100 000 TPM и ~500 RPM (основано на поведении V3 и тестировании). При превышении лимитов API возвращает статус 429, и необходимо повторить запрос с задержкой. В ходе теста, намеренно превышавшего лимиты, около 8% запросов потребовали одной повторной попытки, 2% — двух. Стоимость токенов при повторных попытках равна нулю (неудавшиеся запросы не тарифицируются), но задержки важны для нагрузок, критичных ко времени.

Запросы с длинным контекстом (1M токенов)

Один запрос с 1M входящих токенов стоит $0.30. Если обрабатывать 100 документов в день, это $270/месяц только за входящие токены. Что важнее, запросы с длинным контекстом занимают больше времени — мои тесты показали, что для входных данных объёмом 500K токенов время до первого токена составляло 12–18 секунд, тогда как для 10K токенов — 2–3 секунды. В большинстве случаев разбиение документов на части обеспечивает лучшие показатели стоимости и задержки.

Раздувание токенов при вызове инструментов

Определения инструментов потребляют входящие токены. Типичный инструмент занимает 150–300 токенов. При 20 подключённых инструментах это добавляет 3000–6000 токенов к каждому запросу. Вызовы инструментов также раздувают исходящие токены, поскольку модель генерирует структурированный JSON для каждого вызова (50–150 токенов на вызов). Мой тестовый агент с 15 инструментами в среднем добавлял 250 дополнительных исходящих токенов на запрос. Решение: включать только те инструменты, которые актуальны для каждого типа запроса.

Когда V4 перестаёт быть дешёвым (пороговые значения масштаба)

Примерно при 50 миллионах токенов в день (~$4000/месяц при умеренном кэшировании) начинает иметь смысл самостоятельный хостинг. DeepSeek публикует веса в открытом доступе, поэтому запуск V4 на собственной инфраструктуре означает первоначальные аппаратные расходы, но нулевую плату за токены. Приблизительная точка безубыточности:

50M+ токенов в день: самостоятельный хостинг может оказаться дешевле в течение 6–12 месяцев
Нерегулярные пиковые нагрузки: API-тарификация остаётся более эффективной
Требования к географическому хранению данных: самостоятельный хостинг может быть обязателен независимо от затрат

Примерно при 200–300 миллионах токенов в день ($12K–15K/месяц) начинает иметь экономический смысл создание собственного инференс-кластера с квантизированными моделями.

Второй порог — операционная сложность. При нагрузке ниже 10M токенов в день управление инфраструктурой выглядит излишеством. При нагрузке выше 100M в день отказ от управления ею равносилен упущенной прибыли.

Я работаю на уровне 5–7M токенов в день. API достаточно дёшев, чтобы я никогда не задумывалась о счёте, и операционная простота — никаких серверов, никаких решений по масштабированию, никаких простоев — оправдывает затраты. Но я слежу за цифрой.

Калькулятор, которым я поделилась, — тот самый, который я проверяю каждый понедельник. Я не слежу за ним навязчиво. Просто хочу знать, если что-то изменилось — упал ли процент попаданий в кэш, перестало ли работать планирование нерабочего времени.

Ценообразование DeepSeek V4 сейчас выглядит стабильным. Достаточно предсказуемым, чтобы планировать бюджет на три месяца вперёд, не беспокоясь о неожиданных счетах. Эта предсказуемость важнее абсолютных чисел.