DeepSeek V4 Kosten pro Million Tokens: Vollständiger Rechner

Hey, Leute. Hier ist Dora.

Ich habe letzten Monat drei Wochen lang DeepSeek V4 im Produktionsbetrieb eingesetzt. Meine Monatsrechnung belief sich auf 18 $. Die gleiche Arbeitslast auf GPT-4o hätte rund 380 $ gekostet. Bei Claude Opus 4.5 wären es etwa 720 $ gewesen.

Dieser Unterschied hat mich dazu gebracht, die Zahlen genauer zu untersuchen — nicht um günstiges Computing zu feiern, sondern um zu verstehen, ob die Preisgestaltung im echten Einsatz standhält und wo die versteckten Kosten lauern.

Veröffentlichte Preise zum Launch (verifizierte Tabelle)

DeepSeek V4’s offizielle Preisgestaltung wurde veröffentlicht:

Standardtarife (pro 1M Token):

Eingabe-Token (Cache-Miss): $0,30
Eingabe-Token (Cache-Treffer): $0,03
Ausgabe-Token: $0,50

Nebenzeittarife (pro 1M Token):

Eingabe-Token (Cache-Miss): $0,15
Eingabe-Token (Cache-Treffer): $0,015
Ausgabe-Token: $0,25

Der Cache-Treffer-Rabatt beträgt 90 %. Das bedeutet: Wenn man Prompts mit sich wiederholenden Elementen strukturiert — System-Anweisungen, Tool-Definitionen, Dokument-Vorlagen — sinken die Kosten nach der ersten Anfrage drastisch.

Eingabe-Token — Standard vs. Cache-Treffer vs. Nebenzeit

Cache-Treffer entstehen, wenn DeepSeek erkennt, dass ein Teil des Prompts kürzlich verarbeitet wurde, und die Berechnung wiederverwendet. Das funktioniert nur mit konsistenten Präfixen — System-Anweisungen oder Tool-Definitionen, die sich zwischen Aufrufen nicht ändern.

Ich habe das mit einem Research-Summarizer getestet. Der System-Prompt und das Extraktionsschema blieben über alle Durchläufe hinweg konstant. Nach der ersten Anfrage lagen die Cache-Trefferquoten konstant bei 65–70 %. Meine effektiven Eingabekosten sanken von $0,30 auf etwa $0,12 pro Million Token.

Nebenzeittarife gelten von ungefähr 23:00 bis 7:00 Uhr Pekinger Zeit (UTC+8) mit einem Rabatt von 50 % auf alle Token-Typen. Ich habe meine wöchentlichen Batch-Jobs auf 2:00 Uhr Pekinger Zeit gelegt. Gleiche Arbeitslast, halbe Kosten. Die Latenz spielte bei der Stapelverarbeitung keine Rolle, also war der Trade-off eindeutig.

Ausgabe-Token — Standard vs. Nebenzeit

Ausgabe-Token kosten mehr, weil die Generierung sequenzielle Berechnung erfordert — das Modell kann die Ausgabe nicht parallelisieren, wie es Eingaben verarbeitet. Mit $0,50 pro Million (Standard) oder $0,25 (Nebenzeit) zahlt man immer noch weniger, als die meisten Modelle allein für Eingaben berechnen.

GPT-4o berechnet $2,50 pro Million Ausgabe-Token. Claude Opus 4.5 berechnet $15. Für meinen Anwendungsfall — das Erstellen von 800–1200-Token-Zusammenfassungen aus 3000–5000-Token-Eingaben — blieben Ausgabekosten selbst ohne Caching-Vorteile unter den Eingabekosten.

Wie V4 im Vergleich zur V3-Preisgestaltung abschneidet

V4 wurde zu $0,30 Eingabe / $0,50 Ausgabe eingeführt, gegenüber V3’s $0,14 / $0,28 beim Start Ende Dezember 2024. Das ist eine Steigerung von etwa 15 % in absoluten Zahlen.

Die Erhöhung spiegelt echte architektonische Verbesserungen wider: längere Kontextfenster (bis zu 1M Token), bessere Genauigkeit bei Tool-Aufrufen und hybride Reasoning-Modi, die in V3 nicht verfügbar waren. Was sich ändert, ist nicht nur der Preis, sondern das Verhältnis von Leistung zu Kosten. V4 erzielt 81 % auf SWE-bench Verified gegenüber V3’s 69 %, was bedeutet, dass man für nur das 1,14-fache der Kosten deutlich bessere Leistung erhält.

Warum DeepSeek 20–50x günstiger ist als OpenAI

Die Preislücke ist kein Marketing. Es ist architektonische Effizienz, die sich in Betriebskosten niederschlägt.

MoE-Architektur: 671B gesamt, 37B aktiv

DeepSeek V4 verwendet Mixture-of-Experts mit 671 Milliarden Gesamtparametern, aktiviert aber nur 37 Milliarden pro Token. Wenn man eine Anfrage sendet, wählt der Routing-Mechanismus des Modells 8 spezialisierte Experten aus einem Pool von 256 aus, plus einen gemeinsamen Experten, der alles verarbeitet. Diese 9 Experten übernehmen die Berechnung. Die anderen 247 bleiben inaktiv.

Das ist wichtig, weil die Rechenkosten mit den aktiven Parametern skalieren, nicht mit den Gesamtparametern. Vergleicht man das mit dichten Modellen wie GPT-4, die für jedes Token alle Parameter aktivieren: Ein Modell mit 405 Milliarden Parametern wie Llama 3.1 benötigt etwa 2.448 GFLOPs pro Token. DeepSeek V4 benötigt ungefähr 250 GFLOPs — fast 10x weniger Rechenaufwand.

Diese Effizienz zeigt sich auch bei den Deployment-Anforderungen. V4 kann für kleinere Workloads auf einem einzelnen Server mit zwei RTX 4090s laufen. Dichte Modelle vergleichbarer Leistung benötigen Multi-Node-GPU-Cluster. Hardware-Kosten summieren sich über Millionen von API-Aufrufen, und diese Einsparungen fließen in die Preisgestaltung ein. Die Effizienzgewinne stammen zum Teil aus DeepSeeks Manifold-Constrained Hyper-Connections (mHC) Architektur, die das Routing zwischen Experten-Schichten optimiert.

Trainingskosten (5,6 Mio. $ vs. GPT-4 100 Mio. $+)

DeepSeek hat V3 für 5,6 Millionen Dollar trainiert, mit 2,788 Millionen H800-GPU-Stunden über 14,8 Billionen Token. Branchenschätzungen beziffern GPT-4’s Trainingskosten auf rund 100 Millionen Dollar oder mehr — etwa 18-mal höher.

Die Lücke ergibt sich aus zwei Faktoren: MoE-Architektur trainiert schneller als dichte Modelle bei vergleichbaren Fähigkeiten, und DeepSeek verwendete H800-GPUs, die günstiger sind als H100s und trotzdem ausreichende Leistung liefern.

Niedrigere Trainingskosten bedeuten nicht automatisch niedrigere Inferenzpreise — Unternehmen können verlangen, was der Markt hergibt — aber DeepSeek hat Einsparungen konsequent weitergegeben. V2, V3 und V4 wurden alle unter den Preisen von Frontier-Modellen eingeführt, während sie bei wichtigen Benchmarks mithalten oder diese übertreffen. Dieses Muster deutet darauf hin, dass die Preisgestaltung nachhaltig ist, nicht temporär.

Vorlagen-Kostenrechner für reale Anwendungen

Eingaben: tägliche Token, Cache-Trefferrate, Nebenzeit-Anteil

Die relevanten Variablen:

Gesamte Eingabe-/Ausgabe-Token pro Tag
Cache-Trefferrate (0–100 %)
Nebenzeit-Anteil (0–100 %)
Tage pro Monat

Die Berechnung ist unkompliziert:

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Apply off-peak discount (50% during off-peak hours)
monthly_cost = adjusted_daily_cost × 30

Beispiel: Workload mit 10M Token/Tag

Eine Arbeitslast, die täglich 10 Millionen Token verarbeitet, teilt sich typischerweise in etwa 6 Millionen Eingabe- und 4 Millionen Ausgabe-Token auf. Dieses Verhältnis ist üblich bei Zusammenfassungs-, Umschreibungs- oder Content-Generierungs-Aufgaben.

Annahmen:

40 % Cache-Trefferrate (konservativ für Workflows mit konsistenten System-Prompts)
30 % Nebenzeit-Nutzung (Batch-Jobs über Nacht geplant)
Standard-V4-Preisgestaltung

Tägliche Kostenaufschlüsselung:

Cachierbare Eingabe: (6M × 0,40 × $0,03) / 1M = $0,072
Nicht-cachierbare Eingabe: (6M × 0,60 × $0,30) / 1M = $1,08
Ausgabe: (4M × $0,50) / 1M = $2,00
Gesamt vor Nebenzeit: $3,15

Mit 30 % Nebenzeit-Planung:

Standardanteil (70 %): $2,21
Nebenzeitanteil (30 % × 50 % Rabatt): $0,47
Angepasst täglich: $2,68/Tag bzw. $80,40/Monat

Zum Vergleich: Die gleiche tägliche Arbeitslast mit 10M Token würde kosten:

GPT-4o: ~$450/Monat
Claude Opus 4.5: ~$900/Monat
DeepSeek V4: $80,40/Monat

Das entspricht einer Kostensenkung von 82–91 % bei vergleichbarer Leistung.

Beispiel: RAG-Pipeline mit 80 % Cache-Trefferrate

Retrieval-Augmented-Generation-Pipelines erreichen höhere Cache-Trefferquoten, weil der abgerufene Kontext bei ähnlichen Anfragen oft übereinstimmt.

Ein RAG-System, das täglich 1.000 Anfragen beantwortet:

8.000 Eingabe-Token pro Anfrage (2.000 für die Nutzerfrage + 6.000 für abgerufenen Kontext)
500 Ausgabe-Token pro Anfrage (generierte Antwort)
80 % Cache-Trefferrate (Dokumentenabschnitte wiederholen sich über Anfragen hinweg)
0 % Nebenzeit (nutzerseitig, sofortige Antwort erforderlich)

Tageskosten:

Gesamte Eingabe: 8M Token
Cachierbar: (8M × 0,80 × $0,03) / 1M = $0,192
Nicht-cachierbar: (8M × 0,20 × $0,30) / 1M = $0,48
Ausgabe: (500K × $0,50) / 1M = $0,25
Tagesgesamt: $0,92
Monatlich: $27,66

Ohne Caching würde diese Arbeitslast $122,50/Monat kosten. Durch richtige Cache-Optimierung spart man etwa $95/Monat — eine Reduzierung um 77 %. Deshalb sind strukturierte, wiederholbare Prompts wichtiger, als sie zunächst erscheinen mögen.

Versteckte Kosten, die man einplanen sollte

Wiederholungsaufwand bei Rate-Limit-Überschreitungen

DeepSeek setzt Rate-Limits von rund ~100.000 TPM und ~500 RPM durch (basierend auf V3-Verhalten und Tests). Wenn man an die Limits stößt, gibt die API einen 429-Status zurück und man muss mit Backoff wiederholen. Bei einem Test, der absichtlich die Limits überschritt, benötigten etwa 8 % der Anfragen einen Wiederholungsversuch, 2 % zwei. Die Token-Kosten für Wiederholungen sind null (fehlgeschlagene Anfragen werden nicht berechnet), aber die Latenz ist bei zeitkritischen Workloads relevant.

Lange-Kontext-Anfragen (1M Token)

Eine einzelne 1M-Token-Eingabe kostet $0,30. Wenn man täglich 100 Dokumente verarbeitet, sind das $270/Monat allein für die Eingabe. Wichtiger noch: Lange-Kontext-Anfragen dauern länger — meine Tests zeigten, dass 500K-Token-Eingaben 12–18 Sekunden bis zum ersten Token benötigten, gegenüber 2–3 Sekunden bei 10K-Eingaben. Für die meisten Anwendungsfälle liefert das Aufteilen von Dokumenten bessere Kosten und Latenz.

Token-Inflation durch Tool-Aufrufe

Tool-Definitionen verbrauchen Eingabe-Token. Ein typisches Tool umfasst 150–300 Token. Bei 20 verfügbaren Tools kommen bei jeder Anfrage 3.000–6.000 Token hinzu. Tool-Aufrufe blähen auch die Ausgabe auf, weil das Modell für jeden Aufruf strukturiertes JSON generiert (50–150 Token pro Aufruf). Mein Test-Agent mit 15 Tools benötigte durchschnittlich 250 zusätzliche Ausgabe-Token pro Anfrage. Die Lösung: Nur Tools einschließen, die für den jeweiligen Anfrage-Typ relevant sind.

Wann V4 nicht mehr günstig ist (Skalierungsschwellen)

Bei etwa 50 Millionen Token täglich (~$4.000/Monat mit moderatem Caching) beginnt Self-Hosting wirtschaftlich sinnvoll zu werden. DeepSeek stellt seine Gewichte als Open Source bereit, sodass das Betreiben von V4 auf eigener Infrastruktur zwar anfängliche Hardware-Kosten bedeutet, aber keine Token-Gebühren anfallen. Ungefährer Break-even:

50M+ Token täglich: Self-Hosting kann innerhalb von 6–12 Monaten günstiger sein
Sporadische Spitzenlasten: API-Preisgestaltung bleibt effizienter
Anforderungen an geografische Datenhaltung: Self-Hosting kann unabhängig von den Kosten erforderlich sein

Bei rund 200–300 Millionen Token täglich ($12.000–15.000/Monat) beginnt es wirtschaftlich sinnvoll zu werden, ein eigenes Inferenz-Cluster mit quantisierten Modellen aufzubauen.

Die andere Schwelle ist die operative Komplexität. Unter 10M Token täglich fühlt sich das Verwalten von Infrastruktur übertrieben an. Über 100M täglich fühlt es sich an, als würde man Geld liegen lassen, wenn man sie nicht verwaltet.

Ich liege bei 5–7M Token täglich. Die API ist günstig genug, dass ich nie über die Rechnung nachdenke, und die operative Einfachheit — keine Server, keine Skalierungsentscheidungen, keine Ausfallzeiten — ist den Preis wert. Aber ich behalte die Zahl im Blick.

Der Rechner, den ich geteilt habe, ist derselbe, den ich jeden Montag überprüfe. Ich beobachte ihn nicht obsessiv. Ich möchte nur wissen, ob sich etwas geändert hat — ob Cache-Trefferquoten gesunken sind, ob die Nebenzeit-Planung aufgehört hat zu funktionieren.

DeepSeeks V4-Preisgestaltung wirkt im Moment stabil. Vorhersehbar genug, dass ich drei Monate im Voraus budgetieren kann, ohne mich um überraschende Rechnungen zu sorgen. Diese Beständigkeit ist wichtiger als die absolute Zahl.