Custo do DeepSeek V4 por Milhão de Tokens: Calculadora Completa

Olá, pessoal. Aqui é a Dora.

Passei três semanas no mês passado rodando o DeepSeek V4 em produção. Minha conta mensal chegou a $18. A mesma carga de trabalho no GPT-4o teria custado cerca de $380. No Claude Opus 4.5, algo próximo de $720.

Essa diferença me fez analisar os números com mais cuidado — não para celebrar o computação barata, mas para entender se os preços se sustentam no uso real e onde estão os custos ocultos.

Preços Publicados no Lançamento (tabela verificada)

Os preços oficiais do DeepSeek V4 foram divulgados:

Tarifas padrão (por 1M de tokens):

Tokens de entrada (cache miss): $0,30
Tokens de entrada (cache hit): $0,03
Tokens de saída: $0,50

Tarifas fora do horário de pico (por 1M de tokens):

Tokens de entrada (cache miss): $0,15
Tokens de entrada (cache hit): $0,015
Tokens de saída: $0,25

O desconto por cache hit é de 90%. Isso significa que, se você estruturar seus prompts com elementos repetitivos — instruções de sistema, definições de ferramentas, modelos de documentos — o custo cai drasticamente após a primeira requisição.

Tokens de entrada — padrão vs cache hit vs fora do pico

Os cache hits ocorrem quando o DeepSeek reconhece que parte do seu prompt foi processada recentemente e reutiliza o cálculo. Isso só funciona com prefixos consistentes — instruções de sistema ou definições de ferramentas que não mudam entre chamadas.

Testei isso com um sumarizador de pesquisa. O prompt do sistema e o esquema de extração permaneceram constantes entre as execuções. Após a primeira requisição, as taxas de cache hit ficaram em torno de 65-70%. Meu custo efetivo de entrada caiu de $0,30 para aproximadamente $0,12 por milhão de tokens.

Os preços fora do horário de pico vigoram aproximadamente das 23h às 7h no horário de Pequim (UTC+8), com 50% de desconto em todos os tipos de token. Agendei meus jobs em lote semanais para as 2h no horário de Pequim. Mesma carga de trabalho, metade do custo. A latência não importava para o processamento em lote, então o trade-off foi direto.

Tokens de saída — padrão vs fora do pico

Os tokens de saída custam mais porque a geração exige computação sequencial — o modelo não consegue paralelizar a saída da mesma forma que processa a entrada. A $0,50 por milhão (padrão) ou $0,25 (fora do pico), você ainda paga menos do que a maioria dos modelos cobra apenas pela entrada.

O GPT-4o cobra $2,50 por milhão de tokens de saída. O Claude Opus 4.5 cobra $15. No meu caso — gerando resumos de 800-1200 tokens a partir de entradas de 3.000-5.000 tokens — os custos de saída permaneceram menores do que os de entrada mesmo sem os benefícios do cache.

Como o V4 se compara ao preço do V3

O V4 foi lançado a $0,30 de entrada / $0,50 de saída, contra $0,14 / $0,28 do V3 quando estreou no final de dezembro de 2024. Isso representa um aumento de aproximadamente 15% em termos absolutos.

O aumento reflete melhorias arquitetônicas reais: janelas de contexto mais longas (até 1M de tokens), maior precisão no uso de ferramentas e modos de raciocínio híbrido que não estavam disponíveis no V3. O que mudou não é apenas o preço, mas a relação custo-capacidade. O V4 alcança 81% no SWE-bench Verified contra 69% do V3, o que significa que você obtém um desempenho significativamente melhor por apenas 1,14x o custo.

Por Que o DeepSeek É 20-50x Mais Barato que a OpenAI

A diferença de preço não é marketing. É eficiência arquitetônica se traduzindo em custo operacional.

Arquitetura MoE: 671B no total, 37B ativos

O DeepSeek V4 usa Mixture-of-Experts com 671 bilhões de parâmetros totais, mas ativa apenas 37 bilhões por token. Quando você envia uma requisição, o mecanismo de roteamento do modelo seleciona 8 especialistas de um pool de 256, mais um especialista compartilhado que processa tudo. Esses 9 especialistas lidam com a computação. Os outros 247 permanecem inativos.

Isso importa porque o custo computacional escala com os parâmetros ativos, não com os totais. Compare isso com modelos densos como o GPT-4, que ativam todos os parâmetros para cada token. Um modelo de 405 bilhões de parâmetros como o Llama 3.1 requer aproximadamente 2.448 GFLOPs por token. O DeepSeek V4 requer cerca de 250 GFLOPs — quase 10x menos computação.

Essa eficiência também aparece nos requisitos de implantação. O V4 pode rodar em um único servidor com dois RTX 4090 para cargas menores. Modelos densos de capacidade comparável precisam de clusters de GPU com múltiplos nós. Os custos de hardware se acumulam ao longo de milhões de chamadas de API, e essas economias se refletem nos preços. Os ganhos de eficiência vêm em parte da arquitetura de hiper-conexões restritas por variedades (mHC) do DeepSeek, que otimiza o roteamento entre camadas de especialistas.

Custo de treinamento ($5,6M vs $100M+ do GPT-4)

O DeepSeek treinou o V3 por $5,6 milhões usando 2,788 milhões de horas de GPU H800 em 14,8 trilhões de tokens. Estimativas do setor colocam o custo de treinamento do GPT-4 em torno de $100 milhões ou mais — aproximadamente 18x maior.

A diferença vem de dois fatores: a arquitetura MoE treina mais rápido do que modelos densos em níveis de capacidade similares, e o DeepSeek utilizou GPUs H800, que custam menos que as H100, mas ainda entregam desempenho suficiente.

Custos de treinamento menores não significam automaticamente preços de inferência mais baixos — as empresas podem cobrar o que o mercado suportar — mas o DeepSeek tem repassado consistentemente as economias. V2, V3 e V4 foram todos lançados abaixo das tarifas dos modelos de fronteira, ao mesmo tempo que igualam ou superam o desempenho nos principais benchmarks. Esse padrão sugere que os preços são sustentáveis, não temporários.

Modelo de Calculadora de Custos Real

Entradas: tokens diários, taxa de cache hit, % fora do pico

As variáveis que importam:

Total de tokens de entrada/saída por dia
Taxa de cache hit (0-100%)
Percentual fora do pico (0-100%)
Dias por mês

O cálculo é direto:

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Aplicar desconto fora do pico (50% durante o horário fora do pico)
monthly_cost = adjusted_daily_cost × 30

Exemplo: carga de trabalho de 10M de tokens/dia

Uma carga de trabalho que processa 10 milhões de tokens diariamente costuma se dividir em aproximadamente 6 milhões de tokens de entrada e 4 milhões de saída. Essa proporção é comum para tarefas de sumarização, reescrita ou geração de conteúdo.

Premissas:

40% de taxa de cache hit (conservador para fluxos de trabalho com prompts de sistema consistentes)
30% de uso fora do pico (jobs em lote agendados durante a madrugada)
Preços padrão do V4

Detalhamento do custo diário:

Entrada com cache: (6M × 0,40 × $0,03) / 1M = $0,072
Entrada sem cache: (6M × 0,60 × $0,30) / 1M = $1,08
Saída: (4M × $0,50) / 1M = $2,00
Total antes do fora do pico: $3,15

Com 30% de agendamento fora do pico:

Porção padrão (70%): $2,21
Porção fora do pico (30% × 50% de desconto): $0,47
Diário ajustado: $2,68/dia ou $80,40/mês

Para comparação, a mesma carga de 10M de tokens diários custaria:

GPT-4o: ~$450/mês
Claude Opus 4.5: ~$900/mês
DeepSeek V4: $80,40/mês

Isso representa uma redução de custo de 82-91% para capacidade comparável.

Exemplo: pipeline RAG com 80% de taxa de cache hit

Pipelines de geração aumentada por recuperação (RAG) apresentam taxas de cache hit mais altas porque o contexto recuperado frequentemente se sobrepõe entre consultas similares.

Um sistema RAG respondendo 1.000 consultas diárias:

8.000 tokens de entrada por consulta (2.000 para a pergunta do usuário + 6.000 para o contexto recuperado)
500 tokens de saída por consulta (resposta gerada)
80% de taxa de cache hit (fragmentos de documentos se repetem entre consultas)
0% fora do pico (voltado ao usuário, exige resposta imediata)

Custo diário:

Total de entrada: 8M de tokens
Com cache: (8M × 0,80 × $0,03) / 1M = $0,192
Sem cache: (8M × 0,20 × $0,30) / 1M = $0,48
Saída: (500K × $0,50) / 1M = $0,25
Total diário: $0,92
Mensal: $27,66

Sem cache, essa carga custaria $122,50/mês. A otimização adequada do cache economiza aproximadamente $95/mês — uma redução de 77%. É por isso que prompts estruturados e repetíveis importam mais do que parecem.

Custos Ocultos para Considerar no Orçamento

Overhead de retentativas em limites de taxa

O DeepSeek aplica limites de taxa em torno de ~100.000 TPM e ~500 RPM (com base no comportamento e nos testes do V3). Ao atingir os limites, a API retorna o status 429 e você precisa tentar novamente com backoff. Durante um teste que deliberadamente ultrapassou os limites, cerca de 8% das requisições precisaram de uma retentativa, e 2% precisaram de duas. O custo em tokens das retentativas é zero (requisições com falha não são cobradas), mas a latência importa para cargas de trabalho sensíveis ao tempo.

Requisições de contexto longo (1M de tokens)

Uma única entrada de 1M de tokens custa $0,30. Se você processar 100 documentos por dia, isso representa $270/mês apenas para a entrada. Mais importante, requisições de contexto longo demoram mais — meus testes mostraram que entradas de 500K tokens levavam de 12 a 18 segundos para o primeiro token, contra 2-3 segundos para entradas de 10K. Para a maioria dos casos de uso, dividir os documentos em partes entrega melhor custo e latência.

Inflação de tokens por chamadas de ferramentas

As definições de ferramentas consomem tokens de entrada. Uma ferramenta típica ocupa de 150 a 300 tokens. Com 20 ferramentas expostas, isso representa 3.000-6.000 tokens adicionados a cada requisição. As chamadas de ferramentas também inflacionam a saída porque o modelo gera JSON estruturado para cada invocação (50-150 tokens por chamada). Meu agente de teste com 15 ferramentas gerou em média 250 tokens de saída adicionais por requisição. A solução: inclua apenas as ferramentas relevantes para cada tipo de requisição.

Quando o V4 Deixa de Ser Barato (limites de escala)

Em torno de 50 milhões de tokens diários (~$4.000/mês com cache moderado), a economia de auto-hospedagem começa a fazer sentido. O DeepSeek disponibiliza seus pesos publicamente, portanto rodar o V4 na sua própria infraestrutura implica custos iniciais de hardware, mas zero de taxa por token. Ponto de equilíbrio aproximado:

50M+ tokens diários: auto-hospedagem pode ser mais barata em 6-12 meses
Picos esporádicos: o preço da API continua mais eficiente
Necessidades de residência geográfica de dados: a auto-hospedagem pode ser necessária independentemente do custo

Em torno de 200-300 milhões de tokens diários ($12K-$15K/mês), montar seu próprio cluster de inferência com modelos quantizados começa a fazer sentido econômico.

O outro limite é a complexidade operacional. Abaixo de 10M de tokens diários, gerenciar infraestrutura parece excessivo. Acima de 100M diários, não gerenciá-la parece deixar dinheiro na mesa.

Estou em 5-7M de tokens diários. A API é barata o suficiente para que eu nunca pense na conta, e a simplicidade operacional — sem servidores, sem decisões de escalonamento, sem tempo de inatividade — vale o custo. Mas acompanho o número.

A calculadora que compartilhei é a mesma que verifico toda segunda-feira. Não fico obcecado com ela. Só quero saber se algo mudou — se as taxas de cache hit caíram, se o agendamento fora do pico parou de funcionar.

Os preços do DeepSeek V4 parecem estáveis agora. Previsíveis o suficiente para orçar três meses à frente sem me preocupar com contas surpresa. Essa estabilidade importa mais do que o número absoluto.