DeepSeek V4 定價：比 OpenAI 便宜 20-50 倍（成本分析）

最近，我在尋找一個更安靜的模型，一個我可以頻繁調用而不用每小時都看著計費表的模型。DeepSeek V4 在我與其他開發者的聊天中不斷出現，通常伴隨著一個驚訝的眼神：「它……真的很便宜。」

Dora 來了。我在 2026 年 1 月下半月花時間將它集成到幾個小工作流中：一個研究摘要工具、一個產品筆記重寫器，以及一個每週待辦事項管理器。沒什麼花哨的。我關心的是這些 token 在正常一週內轉化為實際美元的情況。以下是我關於 DeepSeek V4 API 成本、重要折扣以及在發布前預算的一個非常簡單的方法所學到的內容。

當前 DeepSeek 定價

我不會假裝這些數字是穩定的。價格會變動，並且根據你購買存取權的地點（直接購買 vs. 通過 OpenRouter 等代理）而有所不同。因此，有兩個參考點：

檢查來源：官方 DeepSeek API 文檔和定價頁面。當你直接連接時，這些是標準費率。
如果你通過市場路由，打開他們的模型卡。例如，OpenRouter 上的 DeepSeek 模型列出每百萬 token 費率和任何基於時間的折扣。我在 2026 年 1 月末在各個提供商上看到的情況在精神上是一致的：DeepSeek V4 對於輸入和輸出 token 都遠低於前沿模型。具體的美分數額各不相同。我分享的是我如何處理定價，而不是將其凍結在某個地方。

標準費率

如果你剛開始接觸基於使用量的模型計費，有兩行很重要：

輸入 token（你發送的內容）：每 100 萬 token 收費。
輸出 token（你獲得的內容）：也按每 100 萬 token 收費，通常高於輸入。

在我的運行中，V4 的原始費率足夠低，以至於小的日常峰值不會造成傷害。這在批次工作中最明顯。例如，我的每週待辦事項管理器發送約 20 個提示，每個約 3,000-5,000 輸入 token，並接收約 1,000-2,000 輸出 token。即使使用保守的樣本費率，整個運行的總成本也保持在「咖啡錢」區域。

兩個實用注意事項：

輸出膨脹會悄悄逼近你。如果你的提示鼓勵長思考，輸出行可能會使你的帳單翻倍。我設定了 max_tokens 上限並使風格更緊湊。節省了錢，獲得了更好的結果。
塊大小很重要。如果你要摘要長文檔，你將為每個重疊的 token 付費。我從 1,600 token 重疊改為 400，但沒有損失質量。

緩存命中折扣（享受 90% 折扣）

這改變了我的心理計算。一些平台和模型供應商支援對重複前綴的提示進行緩存。如果你的提示的前 N 個 token 沒有變化（系統消息、共享指令、架構），緩存命中可以按陡峭的折扣計費。90% 折扣是我在一些供應商的緩存實現中看到的記錄數字（可用性不同：請在你的提供商的定價頁面上確認）。

這在實踐中的感覺如下：

我的研究摘要工具共享一個長的、固定的系統提示和一個穩定的工具架構。只有源文本會改變。
在第一次調用後，後續調用會對該共享前綴命中緩存。
在遵守緩存計費的平台上，這些重用的 token 會降至折扣費率。

來自測試的兩個警告：

「接近」不會被緩存。改變共享前綴中的一行，你就會錯過命中。
大的、固定的架構可以自付成本。如果你可以將指令和工具合併到一個穩定的前綴中，做一次並使用緩存。

如果你的提供商沒有公開緩存，你仍然可以通過將重複的指導移到更短、更一致的系統提示中，並從用戶消息中修剪冗餘來模擬一些節省。

非高峰折扣（享受 75% 折扣）

一些市場已開始提供基於時間的折扣以平滑需求。我看到了有陡峭折扣的非高峰時段（數字如 50-75% 的折扣出現，但取決於轉售商和模型）。DeepSeek 模型傾向於參與，因為它們的經濟效益已經傾向於高效。

這對我有幫助的兩種方式：

我將每週待辦事項工作安排在非高峰時段。相同的工作量，更低的成本行。
我在晚上批量進行研究摘要。延遲無關緊要，但折扣很重要。

這並非普遍適用。如果你直接連接到 DeepSeek，檢查他們是否發布任何基於時間的定價。如果你通過代理，閱讀模型卡細則。差異可能足夠大以改變你運行內容的時間。

為什麼 DeepSeek 如此便宜

我想了解低價是否是促銷內容，或者架構是否確實支援它。根據公開的信息，有兩個部分突出。

MoE 架構

DeepSeek 的較新大模型依靠混合專家 (MoE)。簡單來說：不是為每個 token 喚醒整個大腦，路由器選擇幾個專家子網絡來處理它。你仍然獲得一個能力強大的模型，但每步只有一小部分參數工作，這降低了計算和成本。

這在實踐中的重要性：

吞吐量擴展性更好。在我這邊，即使我推動並行工作，p95 延遲仍然合理。
成本不會隨著複雜性線性增加。長提示不會像在密集、始終開啟的模型上那樣嚴厲懲罰。

我使用過其他在小眾任務上感覺脆弱的 MoE 模型：V4 在結構密集的提示（JSON 輸出、工具使用）上處理得很好，沒有搖晃。這種穩定性也是成本故事的一部分：更少的重試，更少的重做。

Engram 效率

DeepSeek 的文檔提到了上下文處理和記憶效率的工作（他們在某些版本中提出了改進的注意力路由和 KV 緩存處理等內容）。我無法驗證內部情況，但我可以分享我觀察到的內容：

長上下文提示在我 2026 年 1 月的測試中沒有降低吞吐量。我運行了 32K token 上下文，沒有「一切都變成泥沼」的感覺。
確定性格式化在比我預期更高的溫度下保持，這意味著我可以保持輸出更短而不會降低質量。

我的看法：這個價格不是營銷花招。這是建築設計的結果，該設計旨在保持每個 token 的計算成本低，加上願意在票面價格上傳達這一點。如果你對技術說明感到好奇，請從官方 DeepSeek 文檔和他們模型卡中的任何鏈接論文開始。

成本計算機模板

我不再將預算鎖定到確切的美分。我規劃範圍，然後在實際使用確定後進行調整。以下是我用於 DeepSeek V4 的模板。它足夠簡單，可以在電子表格中重新創建。

你將為每個工作量填寫的輸入：

每天調用次數（或每個批次）
每次調用的平均輸入 token
每次調用的平均輸出 token
每 100 萬 token 的輸入費率（來自你的提供商）
每 100 萬 token 的輸出費率（來自你的提供商）
每次調用的可緩存前綴 token（如果沒有則為 0）
緩存命中折扣（例如，享受 90% 折扣時為 0.90）
非高峰乘數（例如，享受 75% 折扣時為 0.25，否則為 1）

步驟：

分割可緩存和不可緩存的輸入 token。
- cacheable_input = cacheable_prefix_tokens
- variable_input = max(avg_input_tokens - cacheable_prefix_tokens, 0)
以折扣費率對可緩存部分進行定價。
- cacheable_cost = (cacheable_input / 1,000,000) × input_rate × (1 − cache_hit_discount)
以完整輸入費率對可變輸入進行定價。
- variable_input_cost = (variable_input / 1,000,000) × input_rate
以輸出費率對輸出進行定價。
- output_cost = (avg_output_tokens / 1,000,000) × output_rate
將它們相加每次調用，然後應用任何非高峰乘數。
- raw_cost_per_call = cacheable_cost + variable_input_cost + output_cost
- cost_per_call = raw_cost_per_call × off_peak_multiplier
按體積進行擴展。
- daily_cost = cost_per_call × calls_per_day
- monthly_cost ≈ daily_cost × 30

來自我測試週的一個小的、真實的例子（2026 年 1 月 23-30 日）：

每天 120 次調用
每次調用 3,200 輸入 token，其中 1,800 是固定的、可緩存的前綴
每次調用 1,100 輸出 token
例子費率：每 100 萬輸入 $0.40，每 100 萬輸出 $1.60（用你的實際費率替換）
緩存命中折扣：90%
非高峰乘數：0.5（通過轉售商使用 50% 折扣時段）

數學（四捨五入）：

每次調用的可緩存成本 = (1,800/1,000,000) × $0.40 × (1 − 0.90) ≈ $0.0000072
每次調用的可變輸入成本 = (1,400/1,000,000) × $0.40 ≈ $0.00056
每次調用的輸出成本 = (1,100/1,000,000) × $1.60 ≈ $0.00176
每次調用的原始成本 ≈ $0.0023272
非高峰調整後 ≈ $0.0011636
每日 ≈ $0.14
每月 ≈ $4.20

這不是打字錯誤。低的每百萬費率加上緩存和非高峰，將一個「看著計費表」的服務變成了我可以忘記的東西。它一開始沒有節省時間，我花了一個小時使可緩存的前綴真正固定，但之後的每次調用都變得更便宜。

我在表格中保留的一些護欄：

在 max_tokens 上設定硬上限。輸出膨脹是安靜的預算殺手。
單獨追蹤重試。重試是實際支出。
每週記錄平均 token。token 漂移在提示進展時發生。

適合的人：

運行大量小型、相似調用的團隊（ETL、摘要、QA）。
具有可以移至非高峰的批次工作的製造者。

可能不喜歡它的人：

需要全天長的、流式輸出的應用，在高峰時段。節省額度縮小。
沒有緩存支援的設置。你仍然會支付低費率，但不是傻傻的低費率。

如果你想要一個起點，在你選擇的工具中重新構建上面的模板。這是 10 分鐘的設置，可以節省之後的數小時猜測。

**最後一個註釋：**如果你混合提供商，在你的表格中將所有內容也標準化為「每 1K token 的成本」。當你決定是否保留 V4 在循環中或因質量原因將任務切換到前沿模型時，這使快速並排比較更容易。

我仍在觀察非高峰時段如何變化。最近它們在傍晚較早時移動。對於批次工作不是問題，只是我留意的東西。

當前 DeepSeek 定價

標準費率

緩存命中折扣（享受 90% 折扣）

非高峰折扣（享受 75% 折扣）

為什麼 DeepSeek 如此便宜

MoE 架構

Engram 效率

成本計算機模板

相關文章

Seedance 2.0即將推出：字節跳動下一代視頻模型，具有原生音頻功能

Seedance 2.0 完整指南：多模態視頻創建

Seedance 2.0 vs Kling 3.0 vs Sora 2 vs Veo 3.1：終極影片生成模型對比

Seedream 5.0-Preview 完整指南：智能圖像生成

Seedream 5.0 vs Nano Banana Pro vs GPT Image 1.5 vs Flux Klein vs Qwen Image：完整比較

AI驅動的Chrome瀏覽器已到來：從內容展示器升級為內容理解者