DeepSeek V4每百万Token费用：完整计算器

嘿，大家好。我是 Dora。

上个月我花了三周时间在生产环境中运行 DeepSeek V4。当月账单共计 $18。同样的工作负载在 GPT-4o 上大约需要 $380，在 Claude Opus 4.5 上则接近 $720。

这个差距让我认真研究起了这些数字——不是为了庆祝计算成本低廉，而是想弄清楚这个定价在实际使用中是否站得住脚，以及隐性成本藏在哪里。

发布时的官方定价（已验证表格）

DeepSeek V4 的官方定价已正式公布：

标准费率（每 100 万 token）：

输入 token（缓存未命中）：$0.30
输入 token（缓存命中）：$0.03
输出 token：$0.50

非高峰费率（每 100 万 token）：

输入 token（缓存未命中）：$0.15
输入 token（缓存命中）：$0.015
输出 token：$0.25

缓存命中折扣为 90%。这意味着，如果你在 prompt 中包含重复元素——系统指令、工具定义、文档模板——那么在第一次请求之后，成本就会大幅下降。

输入 token——标准 vs 缓存命中 vs 非高峰

当 DeepSeek 识别到你的 prompt 中有部分内容近期已处理过并复用计算结果时，缓存命中就会发生。这只在使用一致前缀时有效——不在调用之间发生变化的系统指令或工具定义。

我用一个研究摘要生成器测试了这一点。系统 prompt 和提取 schema 在多次运行中保持不变。第一次请求之后，缓存命中率稳定在 65-70% 左右。我的有效输入成本从每百万 token $0.30 降至约 $0.12。

非高峰定价大约从北京时间晚上 11 点运行至早上 7 点（UTC+8），所有 token 类型均享有 50% 折扣。我将每周批量任务安排在北京时间凌晨 2 点执行。同样的工作负载，成本减半。批量处理对延迟不敏感，因此这个权衡非常直接。

输出 token——标准 vs 非高峰

输出 token 的价格更高，因为生成过程需要顺序计算——模型无法像处理输入那样并行化输出。标准价格每百万 token $0.50，非高峰期 $0.25，你支付的费用仍低于大多数模型仅输入部分的收费。

GPT-4o 的输出 token 费用为每百万 $2.50，Claude Opus 4.5 为 $15。就我的使用场景而言——从 3000-5000 个输入 token 生成 800-1200 个 token 的摘要——即使不计算缓存收益，输出成本也低于输入成本。

V4 与 V3 定价对比

V4 发布时的定价为输入 $0.30 / 输出 $0.50，而 V3 在 2024 年 12 月底首发时的定价为 $0.14 / $0.28。绝对值上涨了约 15%。

这一涨幅反映了真实的架构改进：更长的上下文窗口（最高 100 万 token）、更好的工具调用准确性，以及 V3 中不具备的混合推理模式。变化的不仅仅是价格，而是性能与成本的比率。V4 在 SWE-bench Verified 上得分 81%，而 V3 为 69%，这意味着你只需支付 1.14 倍的成本，就能获得显著更好的性能。

为什么 DeepSeek 比 OpenAI 便宜 20-50 倍

这个定价差距不是营销噱头，而是架构效率转化为运营成本的体现。

MoE 架构：总参数 6710 亿，激活参数 370 亿

DeepSeek V4 采用混合专家架构，总参数量为 6710 亿，但每个 token 仅激活 370 亿个参数。当你发送请求时，模型的路由机制从 256 个专家池中选取 8 个专项专家，加上一个处理所有内容的共享专家，共 9 个专家完成计算。其余 247 个专家保持休眠。

这一点至关重要，因为计算成本与激活参数数量成正比，而非总参数数量。相比之下，GPT-4 等密集模型对每个 token 都激活全部参数。像 Llama 3.1 这样拥有 4050 亿参数的模型，每个 token 大约需要 2448 GFLOP。DeepSeek V4 大约只需 250 GFLOP——计算量少了近 10 倍。

这种效率也体现在部署要求上。V4 在较小的工作负载下可以在配备双 RTX 4090 的单台服务器上运行。而具备同等能力的密集模型则需要多节点 GPU 集群。在数百万次 API 调用中，硬件成本不断叠加，这些节省最终反映在定价上。效率提升部分来源于 DeepSeek 的流形约束超连接（mHC）架构，该架构优化了专家层之间的路由。

训练成本（$560 万 vs GPT-4 的 $1 亿以上）

DeepSeek 使用 278.8 万 H800 GPU 小时，在 14.8 万亿个 token 上完成了 V3 的训练，耗资 560 万美元。业界估计 GPT-4 的训练成本约为 1 亿美元或更高——大约是前者的 18 倍。

这一差距来自两个因素：MoE 架构在相似能力水平下比密集模型训练更快；DeepSeek 使用的 H800 GPU 成本低于 H100，同时性能依然足够出色。

较低的训练成本不会自动转化为较低的推理价格——公司可以按照市场能承受的价格收费——但 DeepSeek 一直在持续让利。V2、V3 和 V4 在发布时均低于前沿模型的价格，同时在关键基准测试上与之持平甚至超越。这一规律表明，这种定价是可持续的，而非临时策略。

真实成本计算模板

输入项：每日 token 量、缓存命中率、非高峰占比

影响成本的关键变量：

每日输入/输出 token 总量
缓存命中率（0-100%）
非高峰时段占比（0-100%）
每月天数

计算方法如下：

cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost

Apply off-peak discount (50% during off-peak hours)
monthly_cost = adjusted_daily_cost × 30

示例：每日 1000 万 token 的工作负载

每日处理 1000 万 token 的工作负载通常分为约 600 万输入 token 和 400 万输出 token。这个比例在摘要生成、改写或内容生成任务中较为常见。

假设条件：

缓存命中率 40%（对于使用一致系统 prompt 的工作流，这是保守估计）
非高峰时段占比 30%（批量任务在夜间调度）
标准 V4 定价

每日成本明细：

缓存命中输入：(6M × 0.40 × $0.03) / 1M = $0.072
缓存未命中输入：(6M × 0.60 × $0.30) / 1M = $1.08
输出：(4M × $0.50) / 1M = $2.00
非高峰折扣前合计：$3.15

加入 30% 非高峰调度后：

标准时段部分（70%）：$2.21
非高峰部分（30% × 50% 折扣）：$0.47
每日调整后：$2.68/天，即 $80.40/月

作为对比，同样每日 1000 万 token 的工作负载成本为：

GPT-4o：约 $450/月
Claude Opus 4.5：约 $900/月
DeepSeek V4：$80.40/月

在同等能力下，成本降低了 82-91%。

示例：缓存命中率 80% 的 RAG 管道

检索增强生成管道的缓存命中率更高，因为检索到的上下文在相似查询之间往往存在重叠。

一个每日回答 1000 次查询的 RAG 系统：

每次查询 8000 个输入 token（2000 个用于用户问题 + 6000 个用于检索到的上下文）
每次查询 500 个输出 token（生成的答案）
缓存命中率 80%（文档片段在查询之间重复出现）
非高峰占比 0%（面向用户，需要即时响应）

每日成本：

输入 token 总量：800 万
缓存命中：(8M × 0.80 × $0.03) / 1M = $0.192
缓存未命中：(8M × 0.20 × $0.30) / 1M = $0.48
输出：(500K × $0.50) / 1M = $0.25
每日合计：$0.92
每月：$27.66

若不使用缓存，该工作负载每月将花费 $122.50。合理的缓存优化每月可节省约 $95——降低 77%。这就是为什么结构化、可重复的 prompt 比看上去更重要。

需要纳入预算的隐性成本

触发限流时的重试开销

DeepSeek 执行的限流大约为约 100,000 TPM 和约 500 RPM（基于 V3 行为和测试）。触发限流时，API 返回 429 状态码，你需要进行退避重试。在一次故意超出限制的测试中，约 8% 的请求需要重试一次，2% 需要重试两次。重试的 token 成本为零（失败的请求不计费），但对时间敏感的工作负载来说，延迟不可忽视。

长上下文（100 万 token）请求

单次 100 万 token 的输入成本为 $0.30。如果你每天处理 100 个文档，仅输入成本就达每月 $270。更重要的是，长上下文请求耗时更长——我的测试显示，50 万 token 的输入首个 token 返回需要 12-18 秒，而 1 万 token 的输入只需 2-3 秒。在大多数使用场景中，对文档进行分块处理能带来更好的成本和延迟表现。

工具调用导致的 token 膨胀

工具定义会消耗输入 token。一个典型工具约占 150-300 个 token。若暴露 20 个工具，每次请求会额外增加 3000-6000 个 token。工具调用还会使输出膨胀，因为模型需要为每次调用生成结构化 JSON（每次调用 50-150 个 token）。我的测试 agent 配置了 15 个工具，每次请求平均多产生 250 个输出 token。解决方法：每次请求只包含与当前任务相关的工具。

V4 不再便宜的时机（规模阈值）

每日约 5000 万 token（在适度缓存下约 $4000/月）时，自托管的经济账开始说得通。DeepSeek 开源了其模型权重，因此在自有基础设施上运行 V4 意味着前期硬件成本，但不再有按 token 计费。大致盈亏平衡点如下：

每日 5000 万以上 token：6-12 个月内自托管可能更划算
偶发性峰值：API 定价仍更高效
有地理数据驻留需求：无论成本如何，可能都需要自托管

每日达到 2-3 亿 token（每月 $12K-$15K）时，使用量化模型搭建自有推理集群开始具有经济意义。

另一个阈值是运营复杂度。每日 1000 万 token 以下，管理基础设施感觉大材小用；每日超过 1 亿，不管理它则感觉白白浪费钱。

我目前每日处理 500-700 万 token。API 已经足够便宜，我从不担心账单，而运营上的简便——无需管理服务器、无需做扩容决策、无需处理宕机——让这个成本非常值得。但我会持续关注这个数字。

我分享的计算模板就是我每周一都会查看的那个。我不会痴迷地盯着它，只是想知道是否有什么变化——缓存命中率是否下降，非高峰调度是否失效。

DeepSeek V4 目前的定价感觉相当稳定。 可预测性足以让我提前三个月做预算，而不必担心意外账单。这种稳定性比绝对数字本身更重要。

发布时的官方定价（已验证表格）

输入 token——标准 vs 缓存命中 vs 非高峰

输出 token——标准 vs 非高峰

V4 与 V3 定价对比

为什么 DeepSeek 比 OpenAI 便宜 20-50 倍

MoE 架构：总参数 6710 亿，激活参数 370 亿

训练成本（$560 万 vs GPT-4 的 $1 亿以上）

真实成本计算模板

输入项：每日 token 量、缓存命中率、非高峰占比

示例：每日 1000 万 token 的工作负载

示例：缓存命中率 80% 的 RAG 管道

需要纳入预算的隐性成本

触发限流时的重试开销

长上下文（100 万 token）请求

工具调用导致的 token 膨胀

V4 不再便宜的时机（规模阈值）

相关文章

Claude Code源码泄露：BUDDY、KAIROS及所有隐藏功能全解析

什么是Claude Mythos？泄露信息、Capybara等级及Anthropic官方确认内容

什么是 Claw Code？Claude Code 重写详解

Qwen3.5-Omni 是什么：功能、版本与 API 访问指南

PixVerse V6 Extend 现已登陆WaveSpeedAI

PixVerse V6图生视频现已登陆WaveSpeedAI