DeepSeek V4 の100万トークンあたりのコスト：完全計算ツール

やあ、みんな。Doraだよ。

先月、DeepSeek V4を3週間、本番環境で動かしてみた。月額は18ドルだった。同じワークロードをGPT-4oで処理したら約380ドル、Claude Opus 4.5なら720ドル近くかかっただろう。

この差が気になって、ちゃんと数字を掘り下げてみた——安い計算コストを喜ぶためじゃなく、実際の使用に耐えうる価格設定かどうか、そして隠れたコストがどこに潜んでいるかを理解するために。

公式発表時の料金（検証済みテーブル）

DeepSeek V4の公式料金が公開された：

標準料金（100万トークンあたり）：

入力トークン（キャッシュミス）：$0.30
入力トークン（キャッシュヒット）：$0.03
出力トークン：$0.50

オフピーク料金（100万トークンあたり）：

入力トークン（キャッシュミス）：$0.15
入力トークン（キャッシュヒット）：$0.015
出力トークン：$0.25

キャッシュヒット割引は90%。つまり、プロンプトにシステム指示やツール定義、ドキュメントテンプレートといった繰り返し要素を組み込めば、初回リクエスト後はコストが劇的に下がる。

入力トークン——標準 vs キャッシュヒット vs オフピーク

キャッシュヒットは、DeepSeekがプロンプトの一部を最近処理済みと認識し、計算を再利用したときに発生する。これはシステム指示やツール定義など、呼び出し間で変化しない一貫したプレフィックスがある場合にのみ機能する。

リサーチ要約ツールでテストしてみた。システムプロンプトと抽出スキーマは実行間で一定に保った。初回リクエスト後、キャッシュヒット率は65〜70%で安定した。実質的な入力コストは100万トークンあたり$0.30から約$0.12に下がった。

オフピーク料金は北京時間（UTC+8）の午後11時〜午前7時頃に適用され、全トークン種別で50%オフになる。週次のバッチジョブを北京時間の午前2時にスケジュールした。同じワークロードで半額。バッチ処理ではレイテンシは問題にならないので、このトレードオフは明快だった。

出力トークン——標準 vs オフピーク

出力トークンのコストが高いのは、生成が逐次計算を必要とするためだ——モデルは入力を処理するような並列化が出力ではできない。標準で100万トークンあたり$0.50、オフピークで$0.25でも、多くのモデルが入力だけで請求する金額より低い。

GPT-4oは出力100万トークンあたり$2.50を請求する。Claude Opus 4.5は$15。私のユースケース——3000〜5000トークンの入力から800〜1200トークンの要約を生成——では、キャッシュの恩恵がなくても出力コストは入力コストより低く抑えられた。

V4とV3の料金比較

V4は入力$0.30/出力$0.50でリリースされた。V3は2024年12月下旬のデビュー時に$0.14/$0.28だった。絶対値では約15%の値上がりだ。

この上昇は実際のアーキテクチャ改善を反映している：より長いコンテキストウィンドウ（最大100万トークン）、ツール呼び出し精度の向上、V3では利用できなかったハイブリッド推論モード。変わったのは価格だけでなく、コストに対する能力の比率だ。V4はSWE-bench Verifiedで81%のスコアを記録し、V3の69%を上回る。つまり、コスト1.14倍で大幅に高い性能が得られるということだ。

DeepSeekがOpenAIより20〜50倍安い理由

価格差はマーケティングではない。アーキテクチャの効率性が運用コストに直結している。

MoEアーキテクチャ：総計6710億、アクティブ370億パラメータ

DeepSeek V4は総計6710億パラメータのMixture-of-Expertsを使用しているが、1トークンあたりアクティブになるのは370億のみ。リクエストを送ると、モデルのルーティング機構が256のエキスパートプールから8つの専門エキスパートを選択し、さらにすべてを処理する1つの共有エキスパートが加わる。この9つのエキスパートが計算を担う。残りの247は休眠状態だ。

これが重要なのは、計算コストが総パラメータ数ではなくアクティブパラメータ数に比例するためだ。GPT-4のような密なモデルと比較すると、全トークンで全パラメータをアクティブにする。Llama 3.1のような4050億パラメータモデルは1トークンあたり約2,448 GFLOPsを必要とする。DeepSeek V4は約250 GFLOPs——約10倍少ない計算量だ。

この効率性はデプロイ要件にも現れる。V4は小規模なワークロードなら、デュアルRTX 4090を搭載した単一サーバーで動かせる。同等の能力を持つ密なモデルにはマルチノードGPUクラスターが必要だ。ハードウェアコストは何百万ものAPI呼び出しにわたって積み重なり、その節約が料金に反映される。効率の向上は、エキスパート層間のルーティングを最適化するDeepSeekの多様体制約ハイパー接続（mHC）アーキテクチャに部分的に由来する。

学習コスト（$560万 vs GPT-4の$1億以上）

DeepSeekはV3を、14.8兆トークンにわたって278万8千H800 GPU時間を使い、560万ドルで学習させた。業界推定ではGPT-4の学習コストは1億ドル以上——おおよそ18倍高い。

差は2つの要因から来ている：MoEアーキテクチャは同等の能力レベルで密なモデルより速く学習できること、そしてDeepSeekはH100より安価ながら十分な性能を発揮するH800 GPUを使用したことだ。

学習コストが低いことが自動的に推論価格の低下を意味するわけではない——企業は市場が許す限り何でも請求できる——しかしDeepSeekは一貫して節約を還元してきた。V2、V3、V4はすべて、主要ベンチマークでのパフォーマンスを同等以上に保ちながら、最先端モデルの料金を下回って登場している。このパターンは、価格設定が一時的なものでなく持続可能であることを示唆している。

リアルコスト計算テンプレート

入力：1日あたりトークン数、キャッシュヒット率、オフピーク割合

重要な変数：

1日あたりの入力/出力トークンの合計
キャッシュヒット率（0〜100%）
オフピーク割合（0〜100%）
月あたりの日数

計算はシンプルだ：

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

オフピーク割引を適用（オフピーク時間帯は50%オフ）
monthly_cost = adjusted_daily_cost × 30

例：1日1000万トークンのワークロード

1日1000万トークンを処理するワークロードは、通常、入力600万・出力400万トークン程度に分かれる。この比率は要約、書き直し、コンテンツ生成タスクで一般的だ。

前提条件：

キャッシュヒット率40%（一貫したシステムプロンプトを持つワークフローでは控えめな想定）
オフピーク使用率30%（夜間にスケジュールされたバッチジョブ）
標準V4料金

1日あたりのコスト内訳：

キャッシュ可能入力：(6M × 0.40 × $0.03) / 1M = $0.072
キャッシュ不可入力：(6M × 0.60 × $0.30) / 1M = $1.08
出力：(4M × $0.50) / 1M = $2.00
オフピーク前合計：$3.15

30%オフピークスケジューリング適用後：

標準部分（70%）：$2.21
オフピーク部分（30% × 50%割引）：$0.47
調整後1日：$2.68/日、または月額$80.40

比較として、同じ1日1000万トークンのワークロードのコスト：

GPT-4o：〜月額$450
Claude Opus 4.5：〜月額$900
DeepSeek V4：月額$80.40

同等の能力で82〜91%のコスト削減だ。

例：キャッシュヒット率80%のRAGパイプライン

検索拡張生成パイプラインは、類似クエリ間で取得したコンテキストが重複することが多いため、キャッシュヒット率が高くなる。

1日1,000クエリに回答するRAGシステム：

クエリあたり8,000入力トークン（ユーザーの質問2,000 + 取得コンテキスト6,000）
クエリあたり500出力トークン（生成された回答）
キャッシュヒット率80%（ドキュメントチャンクがクエリ間で繰り返される）
オフピーク0%（ユーザー向け、即時レスポンスが必要）

1日あたりのコスト：

入力合計：800万トークン
キャッシュ可能：(8M × 0.80 × $0.03) / 1M = $0.192
キャッシュ不可：(8M × 0.20 × $0.30) / 1M = $0.48
出力：(500K × $0.50) / 1M = $0.25
1日合計：$0.92
月額：$27.66

キャッシュなしでは、このワークロードは月額$122.50かかる。適切なキャッシュ最適化により約$95/月節約できる——77%の削減だ。だからこそ、構造化された再現可能なプロンプトが思っている以上に重要なのだ。

予算に入れるべき隠れたコスト

レートリミット到達時の再試行オーバーヘッド

DeepSeekはV3の動作とテストに基づき、約10万TPMと約500RPMのレートリミットを課している。リミットに達すると、APIは429ステータスを返し、バックオフして再試行する必要がある。意図的にリミットを超えたテストでは、約8%のリクエストが1回の再試行を必要とし、2%が2回必要だった。再試行のトークンコストはゼロ（失敗したリクエストは課金されない）が、時間が重要なワークロードではレイテンシが問題になる。

長いコンテキスト（100万トークン）リクエスト

100万トークンの入力1件は$0.30かかる。1日100ドキュメントを処理するなら、入力だけで$270/月だ。さらに重要なのは、長いコンテキストリクエストに時間がかかることだ——テストでは50万トークン入力の初回トークンに12〜18秒かかったのに対し、1万トークン入力では2〜3秒だった。ほとんどのユースケースでは、ドキュメントをチャンク分割する方がコストとレイテンシの両面で優れている。

ツール呼び出しによるトークン膨張

ツール定義は入力トークンを消費する。典型的なツールは150〜300トークンを使う。20のツールを公開すると、すべてのリクエストに3,000〜6,000トークンが追加される。ツール呼び出しは出力も膨らませる。モデルが各呼び出しのために構造化JSONを生成するためだ（1呼び出しあたり50〜150トークン）。15のツールを持つテストエージェントは、リクエストあたり平均250の追加出力トークンを生成した。解決策：各リクエストタイプに関連するツールのみを含める。

V4が安くなくなるとき（スケールの閾値）

1日約5000万トークン（適度なキャッシュで月額約$4,000）を超えると、セルフホスティングの経済性が意味を持ち始める。DeepSeekは重みをオープンソース化しているため、自分のインフラでV4を動かすことは初期ハードウェアコストを必要とするが、トークンあたりの料金はゼロだ。おおよその損益分岐点：

1日5000万トークン以上：6〜12ヶ月以内にセルフホスティングの方が安くなる可能性
散発的なバーストのみ：API料金の方が効率的
地理的なデータ残留要件：コストに関わらずセルフホスティングが必要な場合も

1日2〜3億トークン（月額$1.2万〜$1.5万）になると、量子化モデルを使った独自の推論クラスターを構築することが経済的に合理的になってくる。

もう一つの閾値は運用の複雑さだ。1日1000万トークン以下では、インフラ管理はやりすぎに感じる。1日1億トークン以上では、管理しないことがお金をテーブルに置き去りにしているように感じる。

私は今1日500〜700万トークン。APIは十分安く、請求書のことを考える必要がないし、サーバーなし・スケーリング判断なし・ダウンタイムなしという運用のシンプルさはコストに見合っている。それでも数字は追っている。

私が共有した計算ツールは毎週月曜日に確認するものと同じだ。執拗に見張るわけではない。ただ何か変わったかどうかを知りたいだけだ——キャッシュヒット率が落ちていないか、オフピークスケジューリングが機能しなくなっていないか。

DeepSeek V4の料金は今のところ安定している。 予想外の請求を心配せず3ヶ月先まで予算を立てられるほど予測可能だ。その安定性は絶対的な数字よりも重要だ。