DeepSeek V4 Coût par Million de Tokens : Calculateur Complet

Salut, tout le monde. C’est Dora.

J’ai passé trois semaines le mois dernier à faire tourner DeepSeek V4 en production. Ma facture mensuelle s’est élevée à 18 $. La même charge de travail sur GPT-4o aurait coûté environ 380 $. Sur Claude Opus 4.5, on se rapproche de 720 $.

Cet écart m’a poussée à creuser les chiffres sérieusement — non pas pour célébrer le calcul bon marché, mais pour comprendre si la tarification tient la route en conditions réelles et où se cachent les coûts invisibles.

Tarification officielle au lancement (tableau vérifié)

La tarification officielle de DeepSeek V4 est entrée en vigueur :

Tarifs standard (par 1 million de tokens) :

Tokens en entrée (cache manquant) : 0,30 $
Tokens en entrée (cache valide) : 0,03 $
Tokens en sortie : 0,50 $

Tarifs hors pointe (par 1 million de tokens) :

Tokens en entrée (cache manquant) : 0,15 $
Tokens en entrée (cache valide) : 0,015 $
Tokens en sortie : 0,25 $

La réduction pour cache valide est de 90 %. Cela signifie que si vous structurez vos prompts avec des éléments récurrents — instructions système, définitions d’outils, modèles de documents — le coût chute considérablement après la première requête.

Tokens en entrée — standard vs cache valide vs hors pointe

Les accès au cache se produisent lorsque DeepSeek reconnaît qu’une partie de votre prompt a été traitée récemment et réutilise le calcul. Cela ne fonctionne qu’avec des préfixes cohérents — instructions système ou définitions d’outils qui ne changent pas entre les appels.

J’ai testé cela avec un résumeur de recherche. Le prompt système et le schéma d’extraction restaient constants d’une exécution à l’autre. Après la première requête, le taux d’accès au cache se maintenait autour de 65-70 %. Mon coût d’entrée effectif est passé de 0,30 $ à environ 0,12 $ par million de tokens.

La tarification hors pointe s’applique approximativement de 23 h à 7 h, heure de Pékin (UTC+8), avec une réduction de 50 % sur tous les types de tokens. J’ai planifié mes traitements par lots hebdomadaires à 2 h du matin, heure de Pékin. Même charge de travail, moitié moins cher. La latence n’avait pas d’importance pour le traitement par lots, donc l’arbitrage était évident.

Tokens en sortie — standard vs hors pointe

Les tokens en sortie coûtent plus cher car la génération nécessite un calcul séquentiel — le modèle ne peut pas paralléliser la sortie comme il traite l’entrée. À 0,50 $ par million (standard) ou 0,25 $ (hors pointe), vous payez toujours moins que ce que la plupart des modèles facturent pour l’entrée seule.

GPT-4o facture 2,50 $ par million de tokens en sortie. Claude Opus 4.5 facture 15 $. Dans mon cas d’usage — générer des résumés de 800 à 1 200 tokens à partir d’entrées de 3 000 à 5 000 tokens — les coûts de sortie restaient inférieurs aux coûts d’entrée même sans les bénéfices du cache.

Comparaison des tarifs V4 vs V3

V4 a été lancé à 0,30 $ en entrée / 0,50 $ en sortie, contre 0,14 $ / 0,28 $ pour V3 lors de son lancement fin décembre 2024. C’est une hausse d’environ 15 % en termes absolus.

Cette hausse reflète de vraies améliorations architecturales : des fenêtres de contexte plus longues (jusqu’à 1 million de tokens), une meilleure précision des appels d’outils, et des modes de raisonnement hybride qui n’étaient pas disponibles dans V3. Ce qui a changé, ce n’est pas seulement le prix mais le rapport capacité/coût. V4 obtient 81 % sur SWE-bench Verified contre 69 % pour V3, ce qui signifie que vous obtenez des performances nettement meilleures pour seulement 1,14 fois le coût.

Pourquoi DeepSeek est 20 à 50 fois moins cher qu’OpenAI

L’écart de tarification n’est pas du marketing. C’est l’efficacité architecturale qui se traduit en coûts opérationnels.

Architecture MoE : 671 milliards au total, 37 milliards actifs

DeepSeek V4 utilise un Mélange d’Experts avec 671 milliards de paramètres au total, mais n’en active que 37 milliards par token. Lorsque vous envoyez une requête, le mécanisme de routage du modèle sélectionne 8 experts spécialisés parmi un pool de 256, plus un expert partagé qui traite tout. Ces 9 experts gèrent le calcul. Les 247 autres restent dormants.

C’est important car le coût de calcul évolue en fonction des paramètres actifs, et non des paramètres totaux. Comparez cela aux modèles denses comme GPT-4, qui activent tous les paramètres pour chaque token. Un modèle à 405 milliards de paramètres comme Llama 3.1 nécessite environ 2 448 GFLOPs par token. DeepSeek V4 en nécessite environ 250 — près de 10 fois moins de calcul.

Cette efficacité se reflète aussi dans les besoins de déploiement. V4 peut tourner sur un seul serveur équipé de deux RTX 4090 pour des charges de travail plus légères. Les modèles denses de capacité comparable nécessitent des clusters GPU multi-nœuds. Les coûts matériels s’accumulent sur des millions d’appels API, et ces économies se répercutent sur la tarification. Les gains d’efficacité proviennent en partie de l’architecture de hyper-connexions à contrainte de variété (mHC) de DeepSeek, qui optimise le routage entre les couches d’experts.

Coût d’entraînement (5,6 M$ vs 100 M$+ pour GPT-4)

DeepSeek a entraîné V3 pour 5,6 millions de dollars en utilisant 2,788 millions d’heures GPU H800 sur 14,8 billions de tokens. Les estimations du secteur placent le coût d’entraînement de GPT-4 à environ 100 millions de dollars ou plus — environ 18 fois plus élevé.

L’écart provient de deux facteurs : l’architecture MoE s’entraîne plus rapidement que les modèles denses à des niveaux de capacité similaires, et DeepSeek a utilisé des GPU H800 qui coûtent moins cher que les H100 tout en offrant des performances suffisantes.

Des coûts d’entraînement plus faibles ne signifient pas automatiquement des prix d’inférence plus bas — les entreprises peuvent facturer ce que le marché accepte — mais DeepSeek a systématiquement répercuté les économies. V2, V3 et V4 ont tous été lancés en dessous des tarifs des modèles de pointe tout en égalant ou surpassant les performances sur les benchmarks clés. Ce schéma suggère que la tarification est durable, et non temporaire.

Modèle de calculateur de coûts réels

Entrées : tokens quotidiens, taux d’accès au cache, % hors pointe

Les variables importantes :

Total de tokens en entrée/sortie par jour
Taux d’accès au cache (0-100 %)
Pourcentage hors pointe (0-100 %)
Jours par mois

Le calcul est simple :

entrée_cacheable = (tokens_entrée × taux_cache × $0,03) / 1M
entrée_non_cacheable = (tokens_entrée × (1 - taux_cache) × $0,30) / 1M
coût_sortie = (tokens_sortie × $0,50) / 1M
coût_journalier = entrée_cacheable + entrée_non_cacheable + coût_sortie

Appliquer la réduction hors pointe (50 % pendant les heures creuses)
coût_mensuel = coût_journalier_ajusté × 30

Exemple : charge de travail de 10 M de tokens/jour

Une charge de travail traitant 10 millions de tokens quotidiennement se divise généralement en environ 6 millions de tokens en entrée et 4 millions en sortie. Ce ratio est courant pour les tâches de résumé, de réécriture ou de génération de contenu.

Hypothèses :

Taux d’accès au cache de 40 % (conservateur pour les flux de travail avec des prompts système cohérents)
30 % d’utilisation hors pointe (traitements par lots planifiés la nuit)
Tarification standard V4

Détail du coût journalier :

Entrée cacheable : (6 M × 0,40 × 0,03 $) / 1 M = 0,072 $
Entrée non cacheable : (6 M × 0,60 × 0,30 $) / 1 M = 1,08 $
Sortie : (4 M × 0,50 $) / 1 M = 2,00 $
Total avant hors pointe : 3,15 $

Avec 30 % de planification hors pointe :

Portion standard (70 %) : 2,21 $
Portion hors pointe (30 % × réduction de 50 %) : 0,47 $
Journalier ajusté : 2,68 $/jour soit 80,40 $/mois

Pour comparaison, la même charge de travail de 10 M de tokens quotidiens coûterait :

GPT-4o : ~450 $/mois
Claude Opus 4.5 : ~900 $/mois
DeepSeek V4 : 80,40 $/mois

C’est une réduction des coûts de 82 à 91 % pour des capacités comparables.

Exemple : pipeline RAG avec 80 % de taux d’accès au cache

Les pipelines de génération augmentée par récupération (RAG) affichent des taux d’accès au cache plus élevés car le contexte récupéré se chevauche souvent entre des requêtes similaires.

Un système RAG répondant à 1 000 requêtes quotidiennes :

8 000 tokens en entrée par requête (2 000 pour la question utilisateur + 6 000 pour le contexte récupéré)
500 tokens en sortie par requête (réponse générée)
80 % de taux d’accès au cache (les fragments de documents se répètent entre les requêtes)
0 % hors pointe (orienté utilisateur, nécessite une réponse immédiate)

Coût journalier :

Total en entrée : 8 M de tokens
Cacheable : (8 M × 0,80 × 0,03 $) / 1 M = 0,192 $
Non cacheable : (8 M × 0,20 × 0,30 $) / 1 M = 0,48 $
Sortie : (500 K × 0,50 $) / 1 M = 0,25 $
Total journalier : 0,92 $
Mensuel : 27,66 $

Sans mise en cache, cette charge de travail coûterait 122,50 $/mois. Une optimisation correcte du cache permet d’économiser environ 95 $/mois — une réduction de 77 %. C’est pourquoi les prompts structurés et répétables comptent plus qu’il n’y paraît.

Coûts cachés à prévoir dans le budget

Surcharge liée aux nouvelles tentatives sur les limites de débit

DeepSeek applique des limites de débit d’environ ~100 000 TPM et ~500 RPM (sur la base du comportement de V3 et des tests). Lorsque vous les atteignez, l’API renvoie un statut 429 et vous devez réessayer avec un recul exponentiel. Lors d’un test qui a délibérément dépassé les limites, environ 8 % des requêtes ont nécessité une nouvelle tentative, 2 % en ont nécessité deux. Le coût en tokens des nouvelles tentatives est nul (les requêtes échouées ne sont pas facturées), mais la latence compte pour les charges de travail sensibles au temps.

Requêtes à long contexte (1 million de tokens)

Une seule entrée de 1 million de tokens coûte 0,30 $. Si vous traitez 100 documents par jour, c’est 270 $/mois rien que pour l’entrée. Plus important encore, les requêtes à long contexte prennent plus de temps — mes tests ont montré que les entrées de 500 K tokens nécessitaient 12 à 18 secondes pour le premier token, contre 2 à 3 secondes pour des entrées de 10 K. Pour la plupart des cas d’usage, le découpage en morceaux offre un meilleur rapport coût-latence.

Inflation des tokens lors des appels d’outils

Les définitions d’outils consomment des tokens en entrée. Un outil typique représente 150 à 300 tokens. Avec 20 outils exposés, cela ajoute 3 000 à 6 000 tokens à chaque requête. Les appels d’outils gonflent aussi la sortie car le modèle génère du JSON structuré pour chaque invocation (50 à 150 tokens par appel). Mon agent de test avec 15 outils produisait en moyenne 250 tokens de sortie supplémentaires par requête. La solution : n’incluez que les outils pertinents pour chaque type de requête.

Quand V4 cesse d’être bon marché (seuils d’échelle)

Autour de 50 millions de tokens quotidiens (~4 000 $/mois avec une mise en cache modérée), l’économie de l’auto-hébergement commence à avoir du sens. DeepSeek publie ses poids en open source, donc faire tourner V4 sur votre propre infrastructure implique des coûts matériels initiaux mais zéro frais par token. Seuil de rentabilité approximatif :

Plus de 50 M de tokens par jour : l’auto-hébergement peut être moins cher en 6 à 12 mois
Pics sporadiques : la tarification API reste plus efficace
Besoins de résidence géographique des données : l’auto-hébergement peut être requis indépendamment du coût

Autour de 200 à 300 millions de tokens par jour (12 000 à 15 000 $/mois), construire votre propre cluster d’inférence avec des modèles quantifiés commence à avoir du sens économiquement.

L’autre seuil est la complexité opérationnelle. En dessous de 10 M de tokens par jour, gérer l’infrastructure semble excessif. Au-dessus de 100 M par jour, ne pas la gérer revient à laisser de l’argent sur la table.

Je suis à 5 à 7 M de tokens par jour. L’API est suffisamment bon marché pour que je ne pense jamais à la facture, et la simplicité opérationnelle — pas de serveurs, pas de décisions de mise à l’échelle, pas de temps d’arrêt — vaut ce que ça coûte. Mais je surveille le chiffre.

Le calculateur que j’ai partagé est le même que je consulte chaque lundi. Je ne l’observe pas de manière obsessionnelle. Je veux juste savoir si quelque chose a changé — si les taux d’accès au cache ont chuté, si la planification hors pointe a cessé de fonctionner.

La tarification de DeepSeek V4 semble stable en ce moment. Suffisamment prévisible pour que je puisse budgétiser sur trois mois sans me soucier de factures surprises. Cette stabilité compte plus que le chiffre absolu.