DeepSeek V4 가격: OpenAI보다 20-50배 저렴 (비용 분석)

DeepSeek V4 가격: OpenAI보다 20-50배 저렴 (비용 분석)

최근에 저는 더 저렴한 모델을 찾고 있었습니다. 매 시간마다 요금을 확인하지 않고도 많이 호출할 수 있는 것 말입니다. DeepSeek V4가 다른 개발자들과의 대화에서 계속 언급되었는데, 대개 눈썹을 올리며 “정말 저렴해요”라고 했습니다.

드디어 나타났습니다. 저는 2026년 1월 후반부에 몇 가지 소규모 워크플로우에 연결했습니다: 연구 요약 도구, 제품 노트 재작성기, 주간 백로그 정리 도구. 별다른 것은 없습니다. 저는 정상적인 한 주 동안 토큰이 실제 달러로 어떻게 변환되는지 신경 썼습니다. 여기서 DeepSeek V4 API 비용, 중요한 할인, 그리고 배포하기 전에 예산을 책정하는 간단한 방법에 대해 배운 것을 공유합니다.

현재 DeepSeek 가격

저는 숫자가 안정적이라고 가정하지 않습니다. 가격은 변하고 접근 방식에 따라 다릅니다(직접 vs. OpenRouter와 같은 중개인). 그래서 두 가지 기준점:

  • 출처 확인: 공식 DeepSeek API 문서와 가격 책정 페이지. 직접 연결할 때의 표준 요금입니다.
  • 마켓플레이스를 통해 라우팅하는 경우, 해당 모델 카드를 여세요. 예를 들어, OpenRouter의 DeepSeek 모델은 백만 토큰당 요금과 시간 기반 할인을 나열합니다.

2026년 1월 말 여러 제공자에서 본 것은 정신적으로 일관성이 있었습니다: DeepSeek V4는 입력 토큰과 출력 토큰 모두에서 최고급 모델보다 훨씬 아래에 있습니다. 정확한 센트는 다릅니다. 저는 가격을 고정하기보다는 가격으로 작업하는 방법을 공유하고 있습니다.

표준 요금

사용량 기반 모델 청구가 처음이라면, 두 가지 항목이 중요합니다:

  • 입력 토큰 (보내는 내용): 100만 토큰당 요금이 청구됩니다.
  • 출력 토큰 (받은 내용): 역시 100만 토큰당 요금이 청구되며, 보통 입력보다 높습니다.

제 실행에서 V4의 원시 요금은 작은 일일 스파이크도 해치지 않을 정도로 충분히 낮았습니다. 그것은 배치 작업에서 가장 두드러집니다. 예를 들어, 제 주간 백로그 정리 도구는 약 20개의 프롬프트를 보내고 각각 약 3-5K 입력 토큰이며 약 1-2K 출력 토큰을 받습니다. 보수적인 샘플 요금으로도 전체 실행의 총 비용은 “커피 값” 영역에 머물렀습니다.

두 가지 실용적인 주의사항:

  • 출력 증가가 몰래 다가옵니다. 프롬프트가 긴 생각을 유도하면, 출력 항목이 청구서를 두 배로 늘릴 수 있습니다. 저는 max_tokens를 제한하고 스타일을 더 타이트하게 조정했습니다. 돈을 절약하고 더 좋은 결과를 얻었습니다.
  • 청크 크기가 중요합니다. 긴 문서를 요약하는 경우, 겹치는 모든 토큰에 대해 비용을 지불합니다. 저는 1,600 토큰 겹침에서 400으로 이동했고 품질을 잃지 않았습니다.

캐시 히트 할인 (90% 할인)

이것이 제 정신 계산을 바꿨습니다. 일부 플랫폼과 모델 공급자는 반복되는 접두사에 대한 프롬프트 캐싱을 지원합니다. 프롬프트의 첫 번째 N개 토큰이 변경되지 않으면 (시스템 메시지, 공유 지침, 스키마), 캐시 히트는 가파른 할인으로 청구될 수 있습니다. 90% 할인은 몇몇 공급자의 캐싱 구현에 기록된 수치입니다 (가용성은 다양함: 공급자의 가격 책정 페이지에서 확인하세요).

실제로 어떻게 느껴졌는지:

  • 제 연구 요약기는 길고 고정된 시스템 프롬프트와 안정적인 도구 스키마를 공유합니다. 오직 소스 텍스트만 변합니다.
  • 첫 번째 호출 후, 후속 호출은 해당 공유 접두사에 대해 캐시를 히트합니다.
  • 캐시 청구를 인정하는 플랫폼에서, 재사용된 토큰은 할인 요금으로 떨어졌습니다.

테스트에서 두 가지 주의사항:

  • “가까움”은 캐시되지 않습니다. 공유 접두사에서 한 줄을 변경하면 히트를 놓칩니다.
  • 크고 고정된 스키마는 스스로를 보충합니다. 지침과 도구를 안정적인 접두사로 통합할 수 있다면, 한 번 수행하고 캐시를 타십시오.

공급자가 캐싱을 노출하지 않으면, 반복된 지침을 더 짧고 일관된 시스템 프롬프트로 이동하고 사용자 메시지에서 중복을 제거하여 일부 절감을 시뮬레이션할 수 있습니다.

비정시간 할인 (75% 할인)

일부 마켓플레이스는 수요를 평활화하기 위해 시간 기반 할인을 제공하기 시작했습니다. 저는 가파른 할인이 있는 비정시간 윈도우를 봤습니다 (50-75% 할인 같은 숫자가 나타나지만, 재판매인과 모델에 따라 다릅니다). DeepSeek 모델은 경향이 있는데, 그들의 경제가 이미 효율적으로 기울어져 있기 때문입니다.

이것이 저를 도운 두 가지 방법:

  • 저는 제 주간 백로그 작업을 비정시간 윈도우로 예약했습니다. 동일한 워크로드, 낮은 라인 항목.
  • 저는 밤새 연구 요약을 배치했습니다. 지연이 중요하지 않았고, 할인이 중요했습니다.

이것은 보편적이지 않습니다. DeepSeek에 직접 연결하는 경우, 시간대 가격을 게시하는지 확인하세요. 브로커를 통해 가는 경우, 모델 카드 세부 사항을 읽으세요. 스프레드는 V4를 계속 사용할지 또는 품질 이유로 작업을 최고급 모델로 전환할지 결정할 때 변경할 만큼 클 수 있습니다.

DeepSeek이 왜 그렇게 저렴한가

저는 낮은 가격이 프로모션 것인지, 아니면 아키텍처가 실제로 이를 지원하는지 이해하고 싶었습니다. 공개된 것에서, 두 가지가 눈에 띄었습니다.

MoE 아키텍처

DeepSeek의 더 새로운 대규모 모델은 Mixture-of-Experts (MoE)에 의존합니다. 평문으로: 모든 토큰에 대해 전체 뇌를 깨우는 대신, 라우터가 몇 가지 전문가 부분 네트워크를 선택하여 처리합니다. 당신은 여전히 능력 있는 모델을 얻지만, 각 단계마다 매개변수의 일부만 작동하므로, 계산과 비용을 절감합니다.

실제로 왜 이것이 중요한지:

  • 처리량은 더 잘 확장됩니다. 제 쪽에서, p95 지연은 병렬 작업을 밀어붙였을 때도 합리적으로 유지되었습니다.
  • 비용이 복잡성에 따라 선형적으로 급증하지 않습니다. 긴 프롬프트는 밀도 높고 항상 켜져 있는 모델에서처럼 그렇게 심하게 처벌하지 않았습니다.

저는 니치한 작업에서 불안정해 보였던 다른 MoE 모델을 사용했습니다: V4는 구조 중심 프롬프트 (JSON 출력, 도구 사용)를 흔들리지 않고 처리했습니다. 그 안정성도 비용 이야기의 일부입니다: 재시도 적음, 다시 시도 적음.

Engram 효율성

DeepSeek의 문서는 문맥 처리 및 메모리 효율에 대한 작업을 언급합니다 (그들은 일부 릴리스에서 개선된 주의 라우팅 및 KV 캐시 처리와 같은 것들을 강조합니다). 저는 내부를 확인할 수 없지만, 제가 관찰한 것을 공유할 수 있습니다:

  • 긴 문맥 프롬프트는 2026년 1월 제 테스트에서 처리량을 악화시키지 않았습니다. 저는 “모든 것이 진흙이 되는” 느낌 없이 32K 토큰 문맥을 실행했습니다.
  • 결정론적 포맷은 예상보다 높은 온도에서 유지되었으며, 이는 출력을 더 짧게 유지할 수 있다는 것을 의미했습니다. 품질 붕괴 없이 말입니다.

제 읽음: 가격은 마케팅 스턴트가 아닙니다. 토큰당 계산을 낮게 유지하도록 구축된 아키텍처와 그것을 스티커 가격으로 전달할 의지의 결과입니다. 기술 노트에 대해 궁금하다면, 공식 DeepSeek 문서와 그들의 모델 카드에서 링크된 논문으로 시작하세요.

비용 계산기 템플릿

저는 더 이상 정확한 센트에 예산을 잠그지 않습니다. 범위를 계획한 다음 실제 사용이 정착되면 조정합니다. 여기 제가 DeepSeek V4에 사용한 템플릿이 있습니다. 스프레드시트에서 재현하기에 충분히 간단합니다.

워크로드당 입력할 입력:

  • 하루당 (또는 배치당) 호출 수
  • 호출당 평균 입력 토큰
  • 호출당 평균 출력 토큰
  • 100만 토큰당 입력 요금 (공급자로부터)
  • 100만 토큰당 출력 요금 (공급자로부터)
  • 호출당 캐시 가능 접두사 토큰 (없으면 0)
  • 캐시 히트 할인 (예: 90% 할인의 경우 0.90)
  • 비정시간 배수 (예: 75% 할인의 경우 0.25, 그렇지 않으면 1)

단계:

  1. 캐시 가능 및 캐시 불가능 입력 토큰을 분할합니다.

    • cacheable_input = cacheable_prefix_tokens
    • variable_input = max(avg_input_tokens - cacheable_prefix_tokens, 0)
  2. 할인 요금으로 캐시 가능 부분에 가격을 책정합니다.

    • cacheable_cost = (cacheable_input / 1,000,000) × input_rate × (1 − cache_hit_discount)
  3. 전체 입력 요금으로 변수 입력에 가격을 책정합니다.

    • variable_input_cost = (variable_input / 1,000,000) × input_rate
  4. 출력 요금으로 출력에 가격을 책정합니다.

    • output_cost = (avg_output_tokens / 1,000,000) × output_rate
  5. 호출당 더하고, 비정시간 배수를 적용합니다.

    • raw_cost_per_call = cacheable_cost + variable_input_cost + output_cost
    • cost_per_call = raw_cost_per_call × off_peak_multiplier
  6. 볼륨으로 확장합니다.

    • daily_cost = cost_per_call × calls_per_day
    • monthly_cost ≈ daily_cost × 30

제 테스트 주간 (1월 23-30, 2026)의 작은, 실제 예:

  • 하루 120회 호출
  • 호출당 3,200 입력 토큰, 그 중 1,800은 고정된, 캐시 가능한 접두사
  • 호출당 1,100 출력 토큰
  • 예 요금: 100만 입력당 $0.40, 100만 출력당 $1.60 (실제로 바꾸세요)
  • 캐시 히트 할인: 90%
  • 비정시간 배수: 0.5 (재판매인을 통해 사용되는 50% 할인 윈도우)

수학 (올림):

  • 호출당 캐시 가능 비용 = (1,800/1,000,000) × $0.40 × (1 − 0.90) ≈ $0.0000072
  • 호출당 변수 입력 비용 = (1,400/1,000,000) × $0.40 ≈ $0.00056
  • 호출당 출력 비용 = (1,100/1,000,000) × $1.60 ≈ $0.00176
  • 호출당 원시 비용 ≈ $0.0023272
  • 비정시간 조정 ≈ $0.0011636
  • 일일 ≈ $0.14
  • 월간 ≈ $4.20

이것은 오타가 아닙니다. 낮은 백만당 요금과 캐싱 및 비정시간이 “요금 미터를 지켜봐야 하는” 서비스를 “잊을 수 있는” 것으로 변환했습니다. 처음에는 시간을 절약하지 못했고, 캐시 가능한 접두사를 정말 고정하는 데 1시간을 보냈지만, 그 후 모든 호출은 더 저렴했습니다.

저는 시트에서 유지하는 몇 가지 가드레일:

  • max_tokens에 대해 하드 캡을 설정합니다. 출력 부풀림은 조용한 예산 살인자입니다.
  • 재시도를 별도로 추적합니다. 재시도는 실제 지출입니다.
  • 주간 평균 토큰을 기록합니다. 토큰 드리프는 프롬프트가 진화함에 따라 발생합니다.

이것이 누구에게 어울리는지:

  • 많은 작은, 유사한 호출을 실행하는 팀 (ETL, 요약, QA).
  • 배치 작업을 비정시간으로 이동할 수 있는 제작자.

이것을 좋아하지 않을 수 있는 사람:

  • 하루 종일 온-피크 긴, 스트리밍 출력이 필요한 앱. 절감이 좁혀집니다.
  • 캐싱 지원이 없는 설정. 당신은 여전히 낮은 요금을 지불하겠지만, 어리석게 낮은 요금은 아닙니다.

시작점을 원하시면, 위의 템플릿을 선택의 도구로 재구성하세요. 10분의 설정이고 나중에 추측 시간을 절약합니다.

마지막 주의: 공급자를 혼합하는 경우, 시트의 모든 것을 “1K 토큰당 비용”으로도 정규화합니다. V4를 계속 사용할지 또는 품질 이유로 작업을 최고급 모델로 전환할지 결정할 때 빠른 나란히 비교를 더 쉽게 만듭니다.

저는 여전히 비정시간 윈도우가 어떻게 변하는지 지켜보고 있습니다. 최근에 그들은 저녁 초반으로 이동했습니다. 배치 작업에는 문제가 되지 않지만, 저는 눈을 여전히 유지하고 있습니다.