Costo de DeepSeek V4 por Millón de Tokens: Calculadora Completa

Hola a todos. Soy Dora.

El mes pasado pasé tres semanas ejecutando DeepSeek V4 en producción. Mi factura mensual fue de $18. La misma carga de trabajo en GPT-4o habría costado alrededor de $380. En Claude Opus 4.5, cerca de $720.

Esa diferencia me hizo analizar los números en serio — no para celebrar el cómputo barato, sino para entender si los precios se sostienen bajo uso real y dónde se esconden los costos ocultos.

Precios publicados en el lanzamiento (tabla verificada)

Los precios oficiales de DeepSeek V4 se publicaron así:

Tarifas estándar (por 1M de tokens):

Tokens de entrada (cache miss): $0.30
Tokens de entrada (cache hit): $0.03
Tokens de salida: $0.50

Tarifas fuera de hora pico (por 1M de tokens):

Tokens de entrada (cache miss): $0.15
Tokens de entrada (cache hit): $0.015
Tokens de salida: $0.25

El descuento por cache hit es del 90%. Eso significa que si estructuras tus prompts con elementos repetidos — instrucciones del sistema, definiciones de herramientas, plantillas de documentos — el costo cae drásticamente después de la primera solicitud.

Tokens de entrada — estándar vs cache hit vs fuera de hora pico

Los cache hits ocurren cuando DeepSeek reconoce que parte de tu prompt ha sido procesada recientemente y reutiliza el cómputo. Esto solo funciona con prefijos consistentes — instrucciones del sistema o definiciones de herramientas que no cambian entre llamadas.

Lo probé con un resumidor de investigación. El prompt del sistema y el esquema de extracción se mantuvieron constantes entre ejecuciones. Después de la primera solicitud, las tasas de cache hit se mantuvieron alrededor del 65-70%. Mi costo efectivo de entrada cayó de $0.30 a aproximadamente $0.12 por millón de tokens.

Los precios fuera de hora pico se aplican aproximadamente de las 11 PM a las 7 AM, hora de Pekín (UTC+8), con un descuento del 50% en todos los tipos de tokens. Programé mis trabajos de procesamiento semanal para las 2 AM, hora de Pekín. La misma carga de trabajo, la mitad del costo. La latencia no importaba para el procesamiento por lotes, así que el compromiso era sencillo.

Tokens de salida — estándar vs fuera de hora pico

Los tokens de salida cuestan más porque la generación requiere cómputo secuencial — el modelo no puede paralelizar la salida de la misma manera que procesa la entrada. A $0.50 por millón (estándar) o $0.25 (fuera de hora pico), aún pagas menos de lo que la mayoría de los modelos cobran solo por la entrada.

GPT-4o cobra $2.50 por millón de tokens de salida. Claude Opus 4.5 cobra $15. Para mi caso de uso — generar resúmenes de 800-1200 tokens a partir de entradas de 3000-5000 tokens — los costos de salida se mantuvieron inferiores a los costos de entrada incluso sin los beneficios del caché.

Cómo se comparan los precios de V4 con V3

V4 se lanzó a $0.30 de entrada / $0.50 de salida, frente a los $0.14 / $0.28 de V3 cuando debutó a finales de diciembre de 2024. Eso es aproximadamente un aumento del 15% en términos absolutos.

El aumento refleja mejoras arquitectónicas reales: ventanas de contexto más largas (hasta 1M de tokens), mejor precisión en las llamadas a herramientas y modos de razonamiento híbrido que no estaban disponibles en V3. Lo que cambió no es solo el precio, sino la relación capacidad-costo. V4 obtiene un 81% en SWE-bench Verified frente al 69% de V3, lo que significa que obtienes un rendimiento significativamente mejor por solo 1.14 veces el costo.

Por qué DeepSeek es 20-50 veces más barato que OpenAI

La diferencia de precios no es marketing. Es la eficiencia arquitectónica traduciéndose en costo operativo.

Arquitectura MoE: 671B en total, 37B activos

DeepSeek V4 usa Mixture-of-Experts con 671 mil millones de parámetros totales, pero solo activa 37 mil millones por token. Cuando envías una solicitud, el mecanismo de enrutamiento del modelo selecciona 8 expertos especializados de un grupo de 256, más un experto compartido que procesa todo. Esos 9 expertos manejan el cómputo. Los otros 247 permanecen inactivos.

Esto importa porque el costo de cómputo escala con los parámetros activos, no con los totales. Compáralo con modelos densos como GPT-4, que activan todos los parámetros para cada token. Un modelo de 405 mil millones de parámetros como Llama 3.1 requiere aproximadamente 2,448 GFLOPs por token. DeepSeek V4 requiere aproximadamente 250 GFLOPs — casi 10 veces menos cómputo.

Esa eficiencia también se refleja en los requisitos de despliegue. V4 puede ejecutarse en un solo servidor con dos RTX 4090 para cargas de trabajo más pequeñas. Los modelos densos de capacidad comparable necesitan clústeres GPU de múltiples nodos. Los costos de hardware se acumulan a lo largo de millones de llamadas a la API, y esos ahorros se trasladan a los precios. Las ganancias de eficiencia provienen en parte de la arquitectura de hiper-conexiones con restricción de variedad (mHC) de DeepSeek, que optimiza el enrutamiento entre capas de expertos.

Costo de entrenamiento ($5.6M vs $100M+ de GPT-4)

DeepSeek entrenó V3 por $5.6 millones usando 2.788 millones de horas de GPU H800 sobre 14.8 billones de tokens. Las estimaciones de la industria sitúan el costo de entrenamiento de GPT-4 en alrededor de $100 millones o más — aproximadamente 18 veces más alto.

La diferencia proviene de dos factores: la arquitectura MoE entrena más rápido que los modelos densos con niveles de capacidad similares, y DeepSeek usó GPUs H800, que cuestan menos que las H100 pero siguen ofreciendo rendimiento suficiente.

Los menores costos de entrenamiento no significan automáticamente precios de inferencia más bajos — las empresas pueden cobrar lo que el mercado soporte —, pero DeepSeek ha trasladado los ahorros de forma consistente. V2, V3 y V4 se han lanzado por debajo de las tarifas de los modelos de frontera mientras igualan o superan el rendimiento en los principales benchmarks. Ese patrón sugiere que los precios son sostenibles, no temporales.

Plantilla de calculadora de costos reales

Variables: tokens diarios, tasa de cache hit, porcentaje fuera de hora pico

Las variables que importan:

Total de tokens de entrada/salida por día
Tasa de cache hit (0-100%)
Porcentaje fuera de hora pico (0-100%)
Días por mes

El cálculo es sencillo:

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Aplicar descuento fuera de hora pico (50% durante horas fuera de pico)
monthly_cost = adjusted_daily_cost × 30

Ejemplo: carga de trabajo de 10M de tokens/día

Una carga de trabajo que procesa 10 millones de tokens diarios suele dividirse en aproximadamente 6 millones de tokens de entrada y 4 millones de salida. Esta proporción es común para tareas de resumen, reescritura o generación de contenido.

Supuestos:

40% de tasa de cache hit (conservador para flujos de trabajo con prompts del sistema consistentes)
30% de uso fuera de hora pico (trabajos por lotes programados de noche)
Precios estándar de V4

Desglose del costo diario:

Entrada con caché: (6M × 0.40 × $0.03) / 1M = $0.072
Entrada sin caché: (6M × 0.60 × $0.30) / 1M = $1.08
Salida: (4M × $0.50) / 1M = $2.00
Total antes de hora fuera de pico: $3.15

Con un 30% de programación fuera de hora pico:

Porción estándar (70%): $2.21
Porción fuera de hora pico (30% × 50% de descuento): $0.47
Diario ajustado: $2.68/día o $80.40/mes

Para comparar, la misma carga de trabajo de 10M de tokens diarios costaría:

GPT-4o: ~$450/mes
Claude Opus 4.5: ~$900/mes
DeepSeek V4: $80.40/mes

Eso es una reducción de costos del 82-91% para una capacidad comparable.

Ejemplo: pipeline RAG con 80% de tasa de cache hit

Los pipelines de generación aumentada por recuperación tienen tasas de cache hit más altas porque el contexto recuperado a menudo se superpone entre consultas similares.

Un sistema RAG que responde 1,000 consultas diarias:

8,000 tokens de entrada por consulta (2,000 para la pregunta del usuario + 6,000 para el contexto recuperado)
500 tokens de salida por consulta (respuesta generada)
80% de tasa de cache hit (los fragmentos de documentos se repiten entre consultas)
0% fuera de hora pico (orientado al usuario, requiere respuesta inmediata)

Costo diario:

Total de entrada: 8M de tokens
Con caché: (8M × 0.80 × $0.03) / 1M = $0.192
Sin caché: (8M × 0.20 × $0.30) / 1M = $0.48
Salida: (500K × $0.50) / 1M = $0.25
Total diario: $0.92
Mensual: $27.66

Sin caché, esta carga de trabajo costaría $122.50/mes. La optimización adecuada del caché ahorra aproximadamente $95/mes — una reducción del 77%. Por eso los prompts estructurados y repetibles importan más de lo que podrían parecer.

Costos ocultos que hay que presupuestar

Sobrecarga de reintentos por límites de velocidad

DeepSeek aplica límites de velocidad de alrededor de ~100,000 TPM y ~500 RPM (basado en el comportamiento de V3 y pruebas propias). Cuando alcanzas los límites, la API devuelve un estado 429 y necesitas reintentar con retroceso exponencial. Durante una prueba que superó deliberadamente los límites, alrededor del 8% de las solicitudes necesitaron un reintento, y el 2% necesitaron dos. El costo en tokens de los reintentos es cero (las solicitudes fallidas no se cobran), pero la latencia importa para cargas de trabajo sensibles al tiempo.

Solicitudes de contexto largo (1M de tokens)

Una sola entrada de 1M de tokens cuesta $0.30. Si procesas 100 documentos diariamente, eso son $270/mes solo de entrada. Más importante aún, las solicitudes de contexto largo tardan más — mis pruebas mostraron que las entradas de 500K tokens tardaban de 12 a 18 segundos para el primer token, frente a los 2-3 segundos para entradas de 10K. Para la mayoría de los casos de uso, dividir los documentos en fragmentos ofrece mejor costo y latencia.

Inflación de tokens por llamadas a herramientas

Las definiciones de herramientas consumen tokens de entrada. Una herramienta típica ocupa entre 150 y 300 tokens. Con 20 herramientas expuestas, eso supone entre 3,000 y 6,000 tokens adicionales en cada solicitud. Las llamadas a herramientas también inflan la salida porque el modelo genera JSON estructurado para cada invocación (50-150 tokens por llamada). Mi agente de prueba con 15 herramientas promedió 250 tokens de salida adicionales por solicitud. La solución: incluir solo las herramientas relevantes para cada tipo de solicitud.

Cuándo V4 deja de ser barato (umbrales de escala)

Alrededor de 50 millones de tokens diarios (~$4,000/mes con caché moderado), la economía del autoalojamiento empieza a tener sentido. DeepSeek publica sus pesos como código abierto, por lo que ejecutar V4 en tu propia infraestructura implica costos iniciales de hardware pero cero tarifas por token. Punto de equilibrio aproximado:

Más de 50M de tokens diarios: el autoalojamiento puede ser más barato en 6-12 meses
Picos esporádicos: los precios de la API siguen siendo más eficientes
Necesidades de residencia geográfica de datos: el autoalojamiento puede ser necesario independientemente del costo

Alrededor de 200-300 millones de tokens diarios ($12K-15K/mes), construir tu propio clúster de inferencia con modelos cuantizados empieza a tener sentido económico.

El otro umbral es la complejidad operativa. Por debajo de 10M de tokens diarios, gestionar la infraestructura parece excesivo. Por encima de 100M diarios, no gestionarla parece dejar dinero sobre la mesa.

Yo estoy en 5-7M de tokens diarios. La API es lo suficientemente barata como para que nunca piense en la factura, y la simplicidad operativa — sin servidores, sin decisiones de escalado, sin tiempo de inactividad — vale el costo. Pero sigo el número de cerca.

La calculadora que compartí es la misma que reviso cada lunes. No la vigilo de forma obsesiva. Solo quiero saber si algo cambió — si las tasas de cache hit bajaron, si la programación fuera de hora pico dejó de funcionar.

Los precios de DeepSeek V4 se sienten estables por ahora. Suficientemente predecibles como para presupuestar con tres meses de anticipación sin preocuparme por facturas sorpresa. Esa estabilidad importa más que el número absoluto.