DeepSeek V4: стоимость за миллион токенов — полный калькулятор
Реальная разбивка затрат DeepSeek V4: тарифы на входящие/исходящие токены, экономия при кэш-попаданиях (скидка 90%), скидки в часы пониженной нагрузки и готовый калькулятор для вашей реальной нагрузки.
Привет, ребята. Это Дора.
Прошлый месяц я провела три недели, запуская DeepSeek V4 в продакшене. Итоговый счёт составил $18. Та же нагрузка на GPT-4o обошлась бы примерно в $380. На Claude Opus 4.5 — ближе к $720.
Эта разница заставила меня как следует разобраться в цифрах — не чтобы радоваться дешёвым вычислениям, а чтобы понять, выдержит ли ценообразование реальную нагрузку и где прячутся скрытые расходы.
Официальные цены на момент запуска (проверенная таблица)

Официальные тарифы DeepSeek V4 вступили в силу:
Стандартные тарифы (за 1M токенов):
- Входящие токены (промах кэша): $0.30
- Входящие токены (попадание в кэш): $0.03
- Исходящие токены: $0.50
Тарифы в нерабочее время (за 1M токенов):
- Входящие токены (промах кэша): $0.15
- Входящие токены (попадание в кэш): $0.015
- Исходящие токены: $0.25
Скидка при попадании в кэш составляет 90%. Это означает, что если структурировать промпты с повторяющимися элементами — системными инструкциями, определениями инструментов, шаблонами документов — стоимость резко падает после первого запроса.

Входящие токены — стандартный тариф vs попадание в кэш vs нерабочее время
Попадание в кэш происходит, когда DeepSeek распознаёт, что часть вашего промпта была недавно обработана, и повторно использует результаты вычислений. Это работает только с последовательными префиксами — системными инструкциями или определениями инструментов, которые не меняются между вызовами.
Я протестировала это на суммаризаторе исследований. Системный промпт и схема извлечения данных оставались неизменными от запуска к запуску. После первого запроса процент попаданий в кэш держался на уровне 65–70%. Эффективная стоимость входящих токенов снизилась с $0.30 примерно до $0.12 за миллион токенов.
Тарификация в нерабочее время действует приблизительно с 23:00 до 07:00 по пекинскому времени (UTC+8) с 50% скидкой на все типы токенов. Я перенесла еженедельные пакетные задания на 02:00 по пекинскому времени. Та же нагрузка — вдвое дешевле. Для пакетной обработки задержки не имели значения, поэтому компромисс был очевиден.
Исходящие токены — стандартный тариф vs нерабочее время
Исходящие токены стоят дороже, потому что генерация требует последовательных вычислений — модель не может распараллелить вывод так, как она обрабатывает входящие данные. При $0.50 за миллион (стандарт) или $0.25 (нерабочее время) вы всё равно платите меньше, чем большинство моделей берут только за входящие токены.
GPT-4o берёт $2.50 за миллион исходящих токенов. Claude Opus 4.5 — $15. В моём случае — генерация резюме объёмом 800–1200 токенов из входных данных объёмом 3000–5000 токенов — стоимость исходящих токенов оставалась ниже стоимости входящих даже без преимуществ кэширования.
Сравнение цен V4 и V3
V4 вышел с ценами $0.30 за входящие / $0.50 за исходящие, тогда как V3 при запуске в конце декабря 2024 года стоил $0.14 / $0.28. В абсолютном выражении это примерно на 15% дороже.
Рост отражает реальные архитектурные улучшения: более длинные контекстные окна (до 1M токенов), повышенную точность вызова инструментов и гибридные режимы рассуждений, недоступные в V3. Изменилось не только ценообразование, но и соотношение возможностей и стоимости. V4 набирает 81% на SWE-bench Verified против 69% у V3, то есть вы получаете значительно лучшую производительность всего за 1.14x цены.
Почему DeepSeek в 20–50 раз дешевле OpenAI
Разрыв в ценах — не маркетинг. Это архитектурная эффективность, выраженная в операционных расходах.
Архитектура MoE: 671B всего, 37B активных

DeepSeek V4 использует Mixture-of-Experts с 671 миллиардом параметров в общей сложности, но активирует лишь 37 миллиардов на каждый токен. При поступлении запроса механизм маршрутизации модели выбирает 8 специализированных экспертов из пула 256, плюс один общий эксперт, обрабатывающий всё. Эти 9 экспертов выполняют вычисления. Остальные 247 остаются неактивными.
Это важно, потому что стоимость вычислений масштабируется в зависимости от активных параметров, а не от их общего числа. Сравните с плотными моделями вроде GPT-4, которые активируют все параметры для каждого токена. Модель с 405 миллиардами параметров, как Llama 3.1, требует около 2448 GFLOPs на токен. DeepSeek V4 требует примерно 250 GFLOPs — почти в 10 раз меньше вычислений.
Эта эффективность проявляется и в требованиях к развёртыванию. V4 может работать на одном сервере с двумя RTX 4090 для небольших нагрузок. Плотные модели сопоставимых возможностей требуют многоузловых GPU-кластеров. Аппаратные расходы накапливаются с миллионами API-вызовов, и эта экономия отражается в ценообразовании. Часть преимуществ эффективности обусловлена архитектурой manifold-constrained hyper-connections (mHC) от DeepSeek, которая оптимизирует маршрутизацию между слоями экспертов.
Стоимость обучения ($5.6M против $100M+ у GPT-4)
DeepSeek обучил V3 за $5.6 миллиона, использовав 2.788 миллиона часов работы GPU H800 на 14.8 триллиона токенов. По отраслевым оценкам, стоимость обучения GPT-4 составила около $100 миллионов или больше — примерно в 18 раз больше.
Разрыв объясняется двумя факторами: архитектура MoE обучается быстрее, чем плотные модели при аналогичном уровне возможностей, и DeepSeek использовал GPU H800, которые дешевле H100, но при этом обеспечивают достаточную производительность.
Низкие затраты на обучение автоматически не означают низкие цены на инференс — компании могут устанавливать любые рыночные цены. Однако DeepSeek последовательно передаёт экономию клиентам. V2, V3 и V4 — все были запущены ниже ставок фронтирных моделей, при этом соответствуя или превосходя их по ключевым бенчмаркам. Эта закономерность говорит о том, что ценообразование устойчиво, а не временно.
Шаблон калькулятора реальных затрат
Входные данные: дневные токены, процент попаданий в кэш, доля нерабочего времени
Переменные, которые имеют значение:
- Общее количество входящих/исходящих токенов в день
- Процент попаданий в кэш (0–100%)
- Доля нерабочего времени (0–100%)
- Дней в месяце
Расчёт прост:
cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost
Применить скидку нерабочего времени (50% в нерабочие часы)
monthly_cost = adjusted_daily_cost × 30
Пример: нагрузка 10M токенов в день
Рабочая нагрузка, обрабатывающая 10 миллионов токенов в день, как правило, делится примерно на 6 миллионов входящих и 4 миллиона исходящих токенов. Такое соотношение типично для задач суммаризации, рерайтинга или генерации контента.
Допущения:
- 40% попаданий в кэш (консервативная оценка для рабочих процессов с постоянными системными промптами)
- 30% использования в нерабочее время (пакетные задания, запланированные на ночь)
- Стандартные тарифы V4
Разбивка ежедневных затрат:
- Кэшируемые входящие: (6M × 0.40 × $0.03) / 1M = $0.072
- Некэшируемые входящие: (6M × 0.60 × $0.30) / 1M = $1.08
- Исходящие: (4M × $0.50) / 1M = $2.00
- Итого до применения скидки нерабочего времени: $3.15
С 30% планированием в нерабочее время:
- Стандартная доля (70%): $2.21
- Доля нерабочего времени (30% × скидка 50%): $0.47
- Скорректированный суточный итог: $2.68/день или $80.40/месяц
Для сравнения, та же нагрузка 10M токенов в день обойдётся:
-
GPT-4o: ~$450/месяц
-
Claude Opus 4.5: ~$900/месяц

-
DeepSeek V4: $80.40/месяц
Это снижение затрат на 82–91% при сопоставимых возможностях.
Пример: RAG-пайплайн с 80% попаданий в кэш
Пайплайны с дополнением на основе извлечения (RAG) демонстрируют более высокий процент попаданий в кэш, поскольку извлечённый контекст часто пересекается между похожими запросами.
RAG-система, отвечающая на 1000 запросов в день:
- 8000 входящих токенов на запрос (2000 для вопроса пользователя + 6000 для извлечённого контекста)
- 500 исходящих токенов на запрос (сгенерированный ответ)
- 80% попаданий в кэш (фрагменты документов повторяются между запросами)
- 0% нерабочего времени (пользовательский интерфейс, требующий немедленного ответа)
Суточные затраты:
- Всего входящих: 8M токенов
- Кэшируемые: (8M × 0.80 × $0.03) / 1M = $0.192
- Некэшируемые: (8M × 0.20 × $0.30) / 1M = $0.48
- Исходящие: (500K × $0.50) / 1M = $0.25
- Суточный итог: $0.92
- Месячный итог: $27.66
Без кэширования эта нагрузка обошлась бы в $122.50/месяц. Правильная оптимизация кэширования экономит около $95/месяц — снижение на 77%. Вот почему структурированные, воспроизводимые промпты важнее, чем может казаться.
Скрытые расходы, которые нужно учесть
Накладные расходы на повторные попытки при превышении лимитов
DeepSeek устанавливает ограничения скорости около ~100 000 TPM и ~500 RPM (основано на поведении V3 и тестировании). При превышении лимитов API возвращает статус 429, и необходимо повторить запрос с задержкой. В ходе теста, намеренно превышавшего лимиты, около 8% запросов потребовали одной повторной попытки, 2% — двух. Стоимость токенов при повторных попытках равна нулю (неудавшиеся запросы не тарифицируются), но задержки важны для нагрузок, критичных ко времени.
Запросы с длинным контекстом (1M токенов)
Один запрос с 1M входящих токенов стоит $0.30. Если обрабатывать 100 документов в день, это $270/месяц только за входящие токены. Что важнее, запросы с длинным контекстом занимают больше времени — мои тесты показали, что для входных данных объёмом 500K токенов время до первого токена составляло 12–18 секунд, тогда как для 10K токенов — 2–3 секунды. В большинстве случаев разбиение документов на части обеспечивает лучшие показатели стоимости и задержки.
Раздувание токенов при вызове инструментов
Определения инструментов потребляют входящие токены. Типичный инструмент занимает 150–300 токенов. При 20 подключённых инструментах это добавляет 3000–6000 токенов к каждому запросу. Вызовы инструментов также раздувают исходящие токены, поскольку модель генерирует структурированный JSON для каждого вызова (50–150 токенов на вызов). Мой тестовый агент с 15 инструментами в среднем добавлял 250 дополнительных исходящих токенов на запрос. Решение: включать только те инструменты, которые актуальны для каждого типа запроса.
Когда V4 перестаёт быть дешёвым (пороговые значения масштаба)

Примерно при 50 миллионах токенов в день (~$4000/месяц при умеренном кэшировании) начинает иметь смысл самостоятельный хостинг. DeepSeek публикует веса в открытом доступе, поэтому запуск V4 на собственной инфраструктуре означает первоначальные аппаратные расходы, но нулевую плату за токены. Приблизительная точка безубыточности:
- 50M+ токенов в день: самостоятельный хостинг может оказаться дешевле в течение 6–12 месяцев
- Нерегулярные пиковые нагрузки: API-тарификация остаётся более эффективной
- Требования к географическому хранению данных: самостоятельный хостинг может быть обязателен независимо от затрат
Примерно при 200–300 миллионах токенов в день ($12K–15K/месяц) начинает иметь экономический смысл создание собственного инференс-кластера с квантизированными моделями.
Второй порог — операционная сложность. При нагрузке ниже 10M токенов в день управление инфраструктурой выглядит излишеством. При нагрузке выше 100M в день отказ от управления ею равносилен упущенной прибыли.
Я работаю на уровне 5–7M токенов в день. API достаточно дёшев, чтобы я никогда не задумывалась о счёте, и операционная простота — никаких серверов, никаких решений по масштабированию, никаких простоев — оправдывает затраты. Но я слежу за цифрой.
Калькулятор, которым я поделилась, — тот самый, который я проверяю каждый понедельник. Я не слежу за ним навязчиво. Просто хочу знать, если что-то изменилось — упал ли процент попаданий в кэш, перестало ли работать планирование нерабочего времени.
Ценообразование DeepSeek V4 сейчас выглядит стабильным. Достаточно предсказуемым, чтобы планировать бюджет на три месяца вперёд, не беспокоясь о неожиданных счетах. Эта предсказуемость важнее абсолютных чисел.


