DeepSeek V4 백만 토큰당 비용: 완전 계산기
DeepSeek V4 실제 비용 분석: 입력/출력 요금, 캐시 히트 절약 (90% 할인), 비성수기 할인, 실제 워크로드를 위한 복사-붙여넣기 계산기.
안녕하세요, 여러분. Dora입니다.
지난달 저는 3주 동안 DeepSeek V4를 프로덕션 환경에서 운용했습니다. 월 청구서는 $18이었습니다. 동일한 작업량을 GPT-4o로 처리했다면 약 $380, Claude Opus 4.5로는 $720에 가까웠을 것입니다.
이 차이를 보고 저는 수치를 제대로 분석해봐야겠다는 생각이 들었습니다. 저렴한 컴퓨팅 비용을 자랑하려는 게 아니라, 실제 사용 시 이 가격이 유지되는지, 숨겨진 비용은 어디에 있는지 파악하고 싶었습니다.
출시 시 공개된 가격 (검증된 표)

DeepSeek V4의 공식 가격이 공개되었습니다:
기본 요금 (100만 토큰당):
- 입력 토큰 (캐시 미스): $0.30
- 입력 토큰 (캐시 히트): $0.03
- 출력 토큰: $0.50
비피크 요금 (100만 토큰당):
- 입력 토큰 (캐시 미스): $0.15
- 입력 토큰 (캐시 히트): $0.015
- 출력 토큰: $0.25
캐시 히트 할인율은 90%입니다. 즉, 시스템 지침, 도구 정의, 문서 템플릿처럼 반복되는 요소를 포함하여 프롬프트를 구성하면, 첫 번째 요청 이후 비용이 크게 감소합니다.

입력 토큰 — 기본 vs 캐시 히트 vs 비피크
캐시 히트는 DeepSeek이 프롬프트의 일부가 최근에 처리된 것을 인식하고 연산을 재사용할 때 발생합니다. 이는 호출 간에 변하지 않는 시스템 지침이나 도구 정의와 같이 일관된 접두사가 있을 때만 작동합니다.
저는 이를 리서치 요약기로 테스트했습니다. 시스템 프롬프트와 추출 스키마는 실행 간에 일정하게 유지되었고, 첫 번째 요청 이후 캐시 히트율은 65~70% 수준을 유지했습니다. 실질적인 입력 비용은 100만 토큰당 $0.30에서 약 $0.12로 줄었습니다.
비피크 요금은 베이징 시간(UTC+8) 기준 오후 11시~오전 7시에 적용되며, 모든 토큰 유형에 50% 할인이 제공됩니다. 저는 주간 배치 작업을 베이징 시간 오전 2시에 예약했습니다. 동일한 작업량에 절반의 비용이 들었습니다. 배치 처리에서는 지연 시간이 중요하지 않았기 때문에 트레이드오프는 명확했습니다.
출력 토큰 — 기본 vs 비피크
출력 토큰은 생성 과정에서 순차적 연산이 필요하기 때문에 더 비쌉니다. 모델이 입력을 처리하는 방식처럼 출력을 병렬화할 수 없습니다. 기본 요금 100만 토큰당 $0.50(비피크 $0.25)이지만, 여전히 대부분의 모델이 입력에만 청구하는 것보다 저렴합니다.
GPT-4o는 100만 출력 토큰당 $2.50을 청구합니다. Claude Opus 4.5는 $15입니다. 제 사용 사례인 3,0005,000 토큰 입력에서 8001,200 토큰 요약 생성의 경우, 캐싱 이점 없이도 출력 비용이 입력 비용보다 낮게 유지되었습니다.
V4와 V3 가격 비교
V4는 입력 $0.30 / 출력 $0.50으로 출시되었는데, V3이 2024년 12월 말 출시 당시 $0.14 / $0.28이었던 것과 비교하면 절대 수치 기준 약 15% 인상된 것입니다.
이 인상은 실질적인 아키텍처 개선을 반영합니다: 더 긴 컨텍스트 창(최대 100만 토큰), 향상된 도구 호출 정확도, V3에서는 불가능했던 하이브리드 추론 모드 등이 포함됩니다. 변한 것은 가격만이 아니라 성능 대비 비용 비율입니다. V4는 SWE-bench Verified에서 81%를 기록했는데, V3의 69%와 비교하면 1.14배의 비용으로 훨씬 더 나은 성능을 제공하는 것입니다.
DeepSeek이 OpenAI보다 20~50배 저렴한 이유
가격 차이는 마케팅이 아닙니다. 아키텍처 효율성이 운영 비용으로 직결된 결과입니다.
MoE 아키텍처: 총 6,710억 개 파라미터, 활성화 370억 개

DeepSeek V4는 총 6,710억 개의 파라미터를 가진 Mixture-of-Experts 방식을 사용하지만, 토큰당 370억 개만 활성화됩니다. 요청을 보내면 모델의 라우팅 메커니즘이 256개 전문가 풀에서 8개의 전문화된 전문가와 모든 것을 처리하는 1개의 공유 전문가를 선택합니다. 이 9개의 전문가가 연산을 담당하고, 나머지 247개는 유휴 상태를 유지합니다.
연산 비용은 총 파라미터 수가 아닌 활성화된 파라미터 수에 비례하기 때문에 이 점이 중요합니다. GPT-4처럼 모든 토큰에 대해 전체 파라미터를 활성화하는 밀집 모델과 비교해보면, Llama 3.1처럼 4,050억 파라미터 모델은 토큰당 약 2,448 GFLOPs가 필요합니다. DeepSeek V4는 약 250 GFLOPs로, 거의 10배 적은 연산량입니다.
이 효율성은 배포 요구 사항에서도 나타납니다. V4는 소규모 작업 시 듀얼 RTX 4090이 탑재된 단일 서버에서 실행 가능합니다. 동급 성능의 밀집 모델은 멀티 노드 GPU 클러스터가 필요합니다. 하드웨어 비용은 수백만 건의 API 호출에 걸쳐 누적되며, 그 절감액이 가격에 반영됩니다. 효율성 향상의 일부는 전문가 레이어 간 라우팅을 최적화하는 DeepSeek의 매니폴드 제약 하이퍼 연결(mHC) 아키텍처에서 비롯됩니다.
훈련 비용 ($560만 vs GPT-4 $1억+)
DeepSeek은 14.8조 토큰에 걸쳐 278만 8,000 H800 GPU 시간을 사용하여 $560만에 V3을 훈련시켰습니다. 업계에서는 GPT-4의 훈련 비용을 약 $1억 이상, 즉 약 18배 높은 것으로 추정합니다.
이 차이는 두 가지 요인에서 비롯됩니다: MoE 아키텍처는 동급 성능 수준에서 밀집 모델보다 빠르게 훈련되며, DeepSeek은 H100보다 저렴하면서도 충분한 성능을 발휘하는 H800 GPU를 사용했습니다.
낮은 훈련 비용이 자동으로 낮은 추론 가격을 의미하지는 않습니다. 기업은 시장이 허용하는 한 원하는 가격을 책정할 수 있습니다. 하지만 DeepSeek은 일관되게 절감액을 반영해왔습니다. V2, V3, V4 모두 주요 벤치마크에서 프론티어 모델과 동등하거나 더 나은 성능을 보이면서 그보다 낮은 가격으로 출시되었습니다. 이 패턴은 해당 가격이 일시적인 것이 아닌 지속 가능한 것임을 시사합니다.
실제 비용 계산기 템플릿
입력값: 일일 토큰 수, 캐시 히트율, 비피크 비율
중요한 변수:
- 일일 총 입출력 토큰 수
- 캐시 히트율 (0~100%)
- 비피크 비율 (0~100%)
- 월 일수
계산 방법은 간단합니다:
cacheable_input = (input_tokens × cache_hit_rate × $0.03) / 1M
non_cacheable_input = (input_tokens × (1 - cache_hit_rate) × $0.30) / 1M
output_cost = (output_tokens × $0.50) / 1M
daily_cost = cacheable_input + non_cacheable_input + output_cost
비피크 할인 적용 (비피크 시간대 50%)
monthly_cost = adjusted_daily_cost × 30
예시: 일일 1,000만 토큰 작업량
일일 1,000만 토큰을 처리하는 작업량은 일반적으로 입력 600만 토큰, 출력 400만 토큰으로 나뉩니다. 이 비율은 요약, 재작성, 콘텐츠 생성 작업에서 흔히 나타납니다.
가정:
- 캐시 히트율 40% (일관된 시스템 프롬프트가 있는 워크플로우 기준 보수적 수치)
- 비피크 사용 30% (야간 예약 배치 작업)
- V4 기본 요금
일일 비용 내역:
- 캐시 가능 입력: (6M × 0.40 × $0.03) / 1M = $0.072
- 캐시 불가 입력: (6M × 0.60 × $0.30) / 1M = $1.08
- 출력: (4M × $0.50) / 1M = $2.00
- 비피크 전 합계: $3.15
비피크 30% 예약 적용 시:
- 기본 시간대 (70%): $2.21
- 비피크 시간대 (30% × 50% 할인): $0.47
- 조정된 일일 비용: $2.68/일 또는 $80.40/월
비교를 위해, 동일한 일일 1,000만 토큰 작업량의 비용:
-
GPT-4o: 약 $450/월
-
Claude Opus 4.5: 약 $900/월

-
DeepSeek V4: $80.40/월
동등한 성능에서 82~91%의 비용 절감입니다.
예시: 캐시 히트율 80%의 RAG 파이프라인
검색 증강 생성 파이프라인은 유사한 쿼리 간에 검색된 컨텍스트가 자주 겹치기 때문에 더 높은 캐시 히트율을 보입니다.
일일 1,000건의 쿼리를 처리하는 RAG 시스템:
- 쿼리당 입력 토큰 8,000개 (사용자 질문 2,000개 + 검색된 컨텍스트 6,000개)
- 쿼리당 출력 토큰 500개 (생성된 답변)
- 캐시 히트율 80% (문서 청크가 쿼리 간에 반복됨)
- 비피크 비율 0% (사용자 대면 서비스, 즉각적인 응답 필요)
일일 비용:
- 총 입력: 800만 토큰
- 캐시 적용: (8M × 0.80 × $0.03) / 1M = $0.192
- 캐시 미적용: (8M × 0.20 × $0.30) / 1M = $0.48
- 출력: (500K × $0.50) / 1M = $0.25
- 일일 합계: $0.92
- 월간: $27.66
캐싱 없이는 이 작업량의 비용이 $122.50/월이 됩니다. 적절한 캐시 최적화로 월 약 $95, 즉 77% 절감이 가능합니다. 이것이 구조화되고 반복 가능한 프롬프트가 생각보다 훨씬 중요한 이유입니다.
예산에 포함해야 할 숨겨진 비용
속도 제한 초과 시 재시도 오버헤드
DeepSeek은 약 10만 TPM 및 500 RPM의 속도 제한을 적용합니다(V3 동작 및 테스트 기반). 제한에 도달하면 API가 429 상태를 반환하고 백오프를 통해 재시도해야 합니다. 제한을 의도적으로 초과하는 테스트에서 약 8%의 요청이 1회 재시도, 2%가 2회 재시도가 필요했습니다. 재시도의 토큰 비용은 없습니다(실패한 요청은 청구되지 않음). 하지만 시간이 중요한 작업에서는 지연 시간이 문제가 됩니다.
긴 컨텍스트(100만 토큰) 요청
100만 토큰 입력 하나에 $0.30이 듭니다. 일일 100개 문서를 처리한다면 입력만으로도 월 $270입니다. 더 중요한 것은, 긴 컨텍스트 요청은 시간이 더 걸린다는 점입니다. 테스트에서 50만 토큰 입력은 첫 토큰까지 1218초가 걸렸는데, 1만 토큰 입력은 23초였습니다. 대부분의 사용 사례에서 문서 청킹은 비용과 지연 시간 모두에서 더 나은 결과를 제공합니다.
도구 호출 토큰 증가
도구 정의는 입력 토큰을 소비합니다. 일반적인 도구는 150300 토큰입니다. 20개의 도구를 노출하면 모든 요청에 3,0006,000 토큰이 추가됩니다. 도구 호출은 모델이 각 호출에 대해 구조화된 JSON을 생성하기 때문에 출력도 증가시킵니다(호출당 50~150 토큰). 15개의 도구를 가진 제 테스트 에이전트는 요청당 평균 250개의 추가 출력 토큰이 발생했습니다. 해결책은 각 요청 유형에 관련된 도구만 포함하는 것입니다.
V4가 더 이상 저렴하지 않을 때 (규모 임계값)

일일 약 5,000만 토큰(중간 수준의 캐싱으로 월 약 $4,000)이 되면 자체 호스팅 경제성이 의미 있어지기 시작합니다. DeepSeek은 가중치를 오픈 소스로 공개하므로, 자체 인프라에서 V4를 실행하면 초기 하드웨어 비용이 들지만 토큰당 요금은 없습니다. 대략적인 손익분기점:
- 일일 5,000만 토큰 이상: 6~12개월 내 자체 호스팅이 더 저렴할 수 있음
- 간헐적 사용량 급증: API 요금이 더 효율적
- 지리적 데이터 상주 요건: 비용과 관계없이 자체 호스팅이 필요할 수 있음
일일 2억3억 토큰(월 $12,000$15,000)이 되면 양자화 모델로 자체 추론 클러스터를 구축하는 것이 경제적으로 타당해집니다.
또 다른 임계값은 운영 복잡성입니다. 일일 1,000만 토큰 미만에서는 인프라 관리가 과도한 느낌입니다. 일일 1억 토큰 이상에서는 관리하지 않는 것이 돈을 버리는 것처럼 느껴집니다.
저는 현재 일일 500만~700만 토큰을 사용하고 있습니다. API가 충분히 저렴하여 청구서에 대해 생각할 필요가 없고, 서버 없음, 확장 결정 불필요, 다운타임 없음이라는 운영 단순성이 비용을 상쇄합니다. 하지만 저는 수치를 추적합니다.
제가 공유한 계산기는 매주 월요일 제가 확인하는 것입니다. 강박적으로 보지는 않습니다. 단지 무언가 바뀌었는지 — 캐시 히트율이 떨어졌는지, 비피크 예약이 작동을 멈췄는지 — 확인하고 싶을 뿐입니다.
DeepSeek V4의 가격은 지금 당장 안정적으로 느껴집니다. 예상치 못한 청구서 걱정 없이 3개월 앞을 예산으로 계획할 수 있을 만큼 충분히 예측 가능합니다. 그 안정성이 절대적인 수치보다 더 중요합니다.





