DeepSeek V4每百万Token费用:完整计算器
DeepSeek V4真实费用详解:输入/输出费率、缓存命中节省(低至九折优惠)、非高峰折扣,以及适用于实际工作负载的即用计算器。
嘿,大家好。我是 Dora。
上个月我花了三周时间在生产环境中运行 DeepSeek V4。当月账单共计 $18。同样的工作负载在 GPT-4o 上大约需要 $380,在 Claude Opus 4.5 上则接近 $720。
这个差距让我认真研究起了这些数字——不是为了庆祝计算成本低廉,而是想弄清楚这个定价在实际使用中是否站得住脚,以及隐性成本藏在哪里。
发布时的官方定价(已验证表格)

DeepSeek V4 的官方定价已正式公布:
标准费率(每 100 万 token):
- 输入 token(缓存未命中):$0.30
- 输入 token(缓存命中):$0.03
- 输出 token:$0.50
非高峰费率(每 100 万 token):
- 输入 token(缓存未命中):$0.15
- 输入 token(缓存命中):$0.015
- 输出 token:$0.25
缓存命中折扣为 90%。这意味着,如果你在 prompt 中包含重复元素——系统指令、工具定义、文档模板——那么在第一次请求之后,成本就会大幅下降。

输入 token——标准 vs 缓存命中 vs 非高峰
当 DeepSeek 识别到你的 prompt 中有部分内容近期已处理过并复用计算结果时,缓存命中就会发生。这只在使用一致前缀时有效——不在调用之间发生变化的系统指令或工具定义。
我用一个研究摘要生成器测试了这一点。系统 prompt 和提取 schema 在多次运行中保持不变。第一次请求之后,缓存命中率稳定在 65-70% 左右。我的有效输入成本从每百万 token $0.30 降至约 $0.12。
非高峰定价大约从北京时间晚上 11 点运行至早上 7 点(UTC+8),所有 token 类型均享有 50% 折扣。我将每周批量任务安排在北京时间凌晨 2 点执行。同样的工作负载,成本减半。批量处理对延迟不敏感,因此这个权衡非常直接。
输出 token——标准 vs 非高峰
输出 token 的价格更高,因为生成过程需要顺序计算——模型无法像处理输入那样并行化输出。标准价格每百万 token $0.50,非高峰期 $0.25,你支付的费用仍低于大多数模型仅输入部分的收费。
GPT-4o 的输出 token 费用为每百万 $2.50,Claude Opus 4.5 为 $15。就我的使用场景而言——从 3000-5000 个输入 token 生成 800-1200 个 token 的摘要——即使不计算缓存收益,输出成本也低于输入成本。
V4 与 V3 定价对比
V4 发布时的定价为输入 $0.30 / 输出 $0.50,而 V3 在 2024 年 12 月底首发时的定价为 $0.14 / $0.28。绝对值上涨了约 15%。
这一涨幅反映了真实的架构改进:更长的上下文窗口(最高 100 万 token)、更好的工具调用准确性,以及 V3 中不具备的混合推理模式。变化的不仅仅是价格,而是性能与成本的比率。V4 在 SWE-bench Verified 上得分 81%,而 V3 为 69%,这意味着你只需支付 1.14 倍的成本,就能获得显著更好的性能。
为什么 DeepSeek 比 OpenAI 便宜 20-50 倍
这个定价差距不是营销噱头,而是架构效率转化为运营成本的体现。
MoE 架构:总参数 6710 亿,激活参数 370 亿

DeepSeek V4 采用混合专家架构,总参数量为 6710 亿,但每个 token 仅激活 370 亿个参数。当你发送请求时,模型的路由机制从 256 个专家池中选取 8 个专项专家,加上一个处理所有内容的共享专家,共 9 个专家完成计算。其余 247 个专家保持休眠。
这一点至关重要,因为计算成本与激活参数数量成正比,而非总参数数量。相比之下,GPT-4 等密集模型对每个 token 都激活全部参数。像 Llama 3.1 这样拥有 4050 亿参数的模型,每个 token 大约需要 2448 GFLOP。DeepSeek V4 大约只需 250 GFLOP——计算量少了近 10 倍。
这种效率也体现在部署要求上。V4 在较小的工作负载下可以在配备双 RTX 4090 的单台服务器上运行。而具备同等能力的密集模型则需要多节点 GPU 集群。在数百万次 API 调用中,硬件成本不断叠加,这些节省最终反映在定价上。效率提升部分来源于 DeepSeek 的流形约束超连接(mHC)架构,该架构优化了专家层之间的路由。
训练成本($560 万 vs GPT-4 的 $1 亿以上)
DeepSeek 使用 278.8 万 H800 GPU 小时,在 14.8 万亿个 token 上完成了 V3 的训练,耗资 560 万美元。业界估计 GPT-4 的训练成本约为 1 亿美元或更高——大约是前者的 18 倍。
这一差距来自两个因素:MoE 架构在相似能力水平下比密集模型训练更快;DeepSeek 使用的 H800 GPU 成本低于 H100,同时性能依然足够出色。
较低的训练成本不会自动转化为较低的推理价格——公司可以按照市场能承受的价格收费——但 DeepSeek 一直在持续让利。V2、V3 和 V4 在发布时均低于前沿模型的价格,同时在关键基准测试上与之持平甚至超越。这一规律表明,这种定价是可持续的,而非临时策略。
真实成本计算模板
输入项:每日 token 量、缓存命中率、非高峰占比
影响成本的关键变量:
- 每日输入/输出 token 总量
- 缓存命中率(0-100%)
- 非高峰时段占比(0-100%)
- 每月天数
计算方法如下:
cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost
Apply off-peak discount (50% during off-peak hours)
monthly_cost = adjusted_daily_cost × 30
示例:每日 1000 万 token 的工作负载
每日处理 1000 万 token 的工作负载通常分为约 600 万输入 token 和 400 万输出 token。这个比例在摘要生成、改写或内容生成任务中较为常见。
假设条件:
- 缓存命中率 40%(对于使用一致系统 prompt 的工作流,这是保守估计)
- 非高峰时段占比 30%(批量任务在夜间调度)
- 标准 V4 定价
每日成本明细:
- 缓存命中输入:(6M × 0.40 × $0.03) / 1M = $0.072
- 缓存未命中输入:(6M × 0.60 × $0.30) / 1M = $1.08
- 输出:(4M × $0.50) / 1M = $2.00
- 非高峰折扣前合计:$3.15
加入 30% 非高峰调度后:
- 标准时段部分(70%):$2.21
- 非高峰部分(30% × 50% 折扣):$0.47
- 每日调整后:$2.68/天,即 $80.40/月
作为对比,同样每日 1000 万 token 的工作负载成本为:
-
GPT-4o:约 $450/月
-
Claude Opus 4.5:约 $900/月

-
DeepSeek V4:$80.40/月
在同等能力下,成本降低了 82-91%。
示例:缓存命中率 80% 的 RAG 管道
检索增强生成管道的缓存命中率更高,因为检索到的上下文在相似查询之间往往存在重叠。
一个每日回答 1000 次查询的 RAG 系统:
- 每次查询 8000 个输入 token(2000 个用于用户问题 + 6000 个用于检索到的上下文)
- 每次查询 500 个输出 token(生成的答案)
- 缓存命中率 80%(文档片段在查询之间重复出现)
- 非高峰占比 0%(面向用户,需要即时响应)
每日成本:
- 输入 token 总量:800 万
- 缓存命中:(8M × 0.80 × $0.03) / 1M = $0.192
- 缓存未命中:(8M × 0.20 × $0.30) / 1M = $0.48
- 输出:(500K × $0.50) / 1M = $0.25
- 每日合计:$0.92
- 每月:$27.66
若不使用缓存,该工作负载每月将花费 $122.50。合理的缓存优化每月可节省约 $95——降低 77%。这就是为什么结构化、可重复的 prompt 比看上去更重要。
需要纳入预算的隐性成本
触发限流时的重试开销
DeepSeek 执行的限流大约为约 100,000 TPM 和约 500 RPM(基于 V3 行为和测试)。触发限流时,API 返回 429 状态码,你需要进行退避重试。在一次故意超出限制的测试中,约 8% 的请求需要重试一次,2% 需要重试两次。重试的 token 成本为零(失败的请求不计费),但对时间敏感的工作负载来说,延迟不可忽视。
长上下文(100 万 token)请求
单次 100 万 token 的输入成本为 $0.30。如果你每天处理 100 个文档,仅输入成本就达每月 $270。更重要的是,长上下文请求耗时更长——我的测试显示,50 万 token 的输入首个 token 返回需要 12-18 秒,而 1 万 token 的输入只需 2-3 秒。在大多数使用场景中,对文档进行分块处理能带来更好的成本和延迟表现。
工具调用导致的 token 膨胀
工具定义会消耗输入 token。一个典型工具约占 150-300 个 token。若暴露 20 个工具,每次请求会额外增加 3000-6000 个 token。工具调用还会使输出膨胀,因为模型需要为每次调用生成结构化 JSON(每次调用 50-150 个 token)。我的测试 agent 配置了 15 个工具,每次请求平均多产生 250 个输出 token。解决方法:每次请求只包含与当前任务相关的工具。
V4 不再便宜的时机(规模阈值)

每日约 5000 万 token(在适度缓存下约 $4000/月)时,自托管的经济账开始说得通。DeepSeek 开源了其模型权重,因此在自有基础设施上运行 V4 意味着前期硬件成本,但不再有按 token 计费。大致盈亏平衡点如下:
- 每日 5000 万以上 token:6-12 个月内自托管可能更划算
- 偶发性峰值:API 定价仍更高效
- 有地理数据驻留需求:无论成本如何,可能都需要自托管
每日达到 2-3 亿 token(每月 $12K-$15K)时,使用量化模型搭建自有推理集群开始具有经济意义。
另一个阈值是运营复杂度。每日 1000 万 token 以下,管理基础设施感觉大材小用;每日超过 1 亿,不管理它则感觉白白浪费钱。
我目前每日处理 500-700 万 token。API 已经足够便宜,我从不担心账单,而运营上的简便——无需管理服务器、无需做扩容决策、无需处理宕机——让这个成本非常值得。但我会持续关注这个数字。
我分享的计算模板就是我每周一都会查看的那个。我不会痴迷地盯着它,只是想知道是否有什么变化——缓存命中率是否下降,非高峰调度是否失效。
DeepSeek V4 目前的定价感觉相当稳定。 可预测性足以让我提前三个月做预算,而不必担心意外账单。这种稳定性比绝对数字本身更重要。



