GPT-5.4 Mini 가격: 입력, 캐시 및 출력 비용

안녕하세요, Dora입니다. 몇 주 동안 대용량 분류 워크로드를 OpenAI를 통해 처리해 왔습니다. 재무팀에서 계속 받은 질문은 “mini” 모델이 출시될 때마다 빌더들이 묻는 바로 그 질문이었습니다: 수학적으로 실제로 맞아떨어지는가, 아니면 저렴한 토큰당 요금이 다른 비용에 잠식되는가?

이 글은 지금 GPT-5.4 Mini 가격에 대해 동일한 계산을 하고 있는 분들을 위한 것입니다 — 비용을 의식하는 빌더, 재무와 가까운 엔지니어링 리드. 입력, 캐시된 입력, 출력 요금을 분석하고, 단위 경제학이 작동하는 곳을 살펴보며, Mini가 헤드라인이 시사하는 것보다 조용히 더 많은 비용을 발생시키는 부분을 짚어보겠습니다. 모든 요금은 OpenAI 공식 API 가격 페이지에서 가져왔으며, 게시일 기준으로 검증되었습니다 — 이 요금은 변경되므로, 인용하기 전에 반드시 확인하세요.

이 글은 통합 가이드가 아닙니다. 라우팅과 API 계약은 별도의 글에서 다룹니다. 이 글은 돈에 관한 것입니다.

GPT-5.4 Mini 비용 분석

입력 대 출력 요금

GPT-5.4 Mini의 가격은 입력 토큰 백만 개당 $0.75, 출력 토큰 백만 개당 $4.50입니다. 대부분의 사람들이 너무 늦게 깨닫는 부분은 출력이 6배 더 비싸다는 점입니다. 입력은 저렴합니다. 예산을 소진시키는 것은 출력입니다.

참고로, 게시일 기준 GPT-5.4 패밀리에서 Mini의 위치:

모델	입력 ($/M)	캐시된 입력 ($/M)	출력 ($/M)
GPT-5.5	$5.00	$0.50	$30.00
GPT-5.4	$2.50	$0.25	$15.00
GPT-5.4 Mini	$0.75	$0.08	$4.50

Mini는 GPT-5.4보다 약 3.3배, GPT-5.5보다 6.7배 저렴합니다. 이 비율이 워크로드를 Mini에 배치할지 결정할 때의 핵심입니다.

표준 요금은 입력 토큰 약 270K 미만의 컨텍스트 창에 적용됩니다. 그 이상에서는 OpenAI가 전체 세션에 입력 2배, 출력 1.5배 요금을 적용합니다 — Batch 및 Flex 티어 포함. 플랫폼에서 가장 비싼 뜻밖의 놀라움입니다.

캐시된 입력 할인

GPT-5.4 Mini의 캐시된 입력은 토큰 백만 개당 $0.075 — 표준 입력 요금 대비 90% 할인으로, GPT-5.4 및 GPT-5.5 패밀리 전반의 패턴과 일치합니다. 캐시는 자동으로 작동합니다: API 플래그도, 코드 변경도 필요 없습니다. 요청이 OpenAI가 이미 계산한 프리픽스를 재사용하면, 해당 토큰은 캐시된 요금으로 청구됩니다.

중요한 규칙:

프리픽스는 바이트 단위로 동일해야 합니다. 시스템 프롬프트에 타임스탬프가 있으면 캐시가 무효화됩니다.
프리픽스는 충분히 길어야 합니다 (최소 약 1,024 토큰).
캐시는 비활성 상태가 몇 분 지속되면 만료됩니다.
출력 요금은 변경되지 않습니다.

대규모의 안정적인 시스템 프롬프트를 사용하는 RAG 애플리케이션의 경우, 70% 이상의 캐시 히트율이 현실적입니다. 공유 프리앰블이 없는 단일 턴 워크로드의 경우, 캐시는 거의 도움이 되지 않습니다. 절약은 실질적이지만 조건부입니다. 그래서 저는 재무팀에 이를 단순한 정률 비율로 인용하지 않습니다.

소형 모델이 대용량에서 유리한 이유

프론티어 대비 작업당 비용 계산

올바른 단위는 토큰당 비용이 아닙니다. 성공적인 작업당 비용입니다. 대표적인 워크로드 — 100만 건의 짧은 지원 티켓 분류, 각 800 입력 토큰과 200 출력 토큰, 캐싱 없음:

모델	입력 비용	출력 비용	합계
GPT-5.5	$4,000	$6,000	$10,000
GPT-5.4	$2,000	$3,000	$5,000
GPT-5.4 Mini	$600	$900	$1,500

2026년 6월 기준 OpenAI 표준 가격에 기반합니다. 예시 계산에 불과합니다 — 실제 가격은 지역, 캐시 히트율, 볼륨 할인 또는 기타 요인에 따라 다를 수 있습니다. 인용하기 전에 항상 OpenAI 공식 가격 페이지를 확인하세요.

Mini는 GPT-5.5 청구액의 15%에 해당합니다. 문제는 Mini의 작업 정확도가 절약이 재작업, 에스컬레이션, 또는 수동 검토로 이연되지 않을 만큼 충분히 높은가입니다.

Mini로 이동하는 모든 워크로드에 대해 평가 세트를 유지합니다. 품질이 임계값 아래로 떨어지면 스프레드시트는 더 이상 의미가 없습니다.

Batch 및 Flex 할인

두 가지 추가 레버:

Batch API: 입력 및 출력 모두 50% 고정 할인, 24시간 이내 비동기 처리. Mini 기준: 백만 토큰당 입력 $0.375, 출력 $2.25. 대부분의 배치는 1~6시간 내에 완료됩니다.
Flex 가격: 마찬가지로 50% 할인이지만, 비동기 큐잉 대신 가변 지연 시간. 사용자 대면이 아닌 내부 도구에 유용합니다.

대용량 워크로드를 투입하기 전에 소규모 테스트 배치에서 정확한 청구를 확인하세요 — OpenAI 개발자 가격 문서가 신뢰할 수 있는 출처입니다.

숨겨진 비용 요인

출력 토큰 낭비

제가 가장 자주 보는 실패 패턴이며, 모델과는 전혀 관계가 없습니다.

Mini에서 출력 토큰은 입력 토큰보다 6배 비쌉니다. 출력 길이를 제한하지 않으면, 200 토큰으로 충분한데 가끔 2,000 토큰을 반환하는 모델이 청구액을 자릿수 단위로 조용히 부풀립니다. 해결책은 단순합니다:

모든 호출에 max_tokens를 설정하세요.
스키마가 응답을 제한하는 구조화된 출력이나 엄격한 JSON 모드를 사용하세요.
분류의 경우, 레이블을 반환하세요. 설명이 아니라. 레이블을.

한 워크로드에서 시스템 프롬프트가 “간략한 이유”를 요청했기 때문에 Mini가 평균 480 출력 토큰을 생성하고 있었습니다. 간략하다는 게 결국 모델 마음대로였습니다. 이유 필드를 제거하고 max_tokens를 추가한 후, 출력은 12 토큰으로 줄었습니다. 청구액도 그에 따라 줄었습니다.

출력 낭비는 저렴한 토큰당 요금이 주는 모든 절약을 잠식합니다. 가장 먼저 감사해야 할 항목입니다.

캐싱에는 안정적인 프리픽스가 필요

코드 리뷰 관점에서 “일관된 시스템 프롬프트”는 “바이트 단위로 동일한”과 같지 않습니다. 시스템 프롬프트에 현재 날짜, 상단의 사용자별 개인화 필드, 요청마다 달라지는 검색된 문서 블록, 또는 A/B 변형이 포함되어 있다면 — 해당 프리픽스에 대한 캐싱은 무효화됩니다.

캐시는 입력 시작부터 가장 긴 공유 프리픽스에만 적용됩니다. 해결책은 구조적입니다: 안정적인 콘텐츠를 앞에 배치하고, 변수는 끝에 두세요.

당연하게 들릴 수 있습니다. 그럼에도 캐싱이 활성화되어 있다고 가정했지만 실제로는 그렇지 않은 프로덕션 시스템을 여전히 목격했습니다. 캐시 히트율을 확인하세요. 가정하지 마세요.

비용 측면에서 Mini를 사용해야 하는 경우

최적 적합 사례 대 성능이 저하되는 사례

Mini는 대용량 분류, 태깅, 라우팅 결정, 구조화된 입력의 요약, 프론티어 모델이 엣지 케이스를 검토하는 1차 추출, 그리고 제한된 채팅에 잘 작동합니다. 출력 길이를 공격적으로 제한할 수 있는 모든 것.

Mini는 긴 체인에 걸친 다단계 추론, 품질이 사용자 신뢰를 결정하는 출력(법률 초안 작성, 고객 대면 분석), 엣지 케이스가 흔하고 놓치면 비용이 큰 작업, 그리고 해당 작업에서 Mini와 GPT-5.4 간의 평가 격차가 측정 가능한 경우에 성능이 저하됩니다.

정직한 테스트는 자체 데이터에 대한 자체 평가 세트입니다. Mini의 정확도가 GPT-5.4와 허용 가능한 범위 내에 있다면, 절약은 실질적입니다. 그렇지 않다면, 수동 검토나 사용자 대면 오류로 작업이 밀려나는 것에 대한 할인 비용을 지불하는 것입니다 — API 청구서에는 절대 나타나지 않지만 어딘가에는 반드시 나타납니다.

Mini에 한동안 있었던 워크로드는 몇 주마다 감사합니다. 드리프트는 실제입니다. 라우팅을 재평가해야 할 경우 OpenAI API 가격 비교 분석에서 최신 정보를 확인할 수 있습니다.

FAQ

GPT-5.4 Mini는 GPT-5.5와 비교해 실제로 얼마나 저렴한가요?

토큰당 약 7분의 1입니다. GPT-5.4 Mini는 입력 $0.75, 출력 $4.50 (백만 토큰당); GPT-5.5는 입력 $5.00, 출력 $30.00입니다. 동등한 볼륨에서 캐싱 없이, Mini는 GPT-5.5의 약 15% 비용입니다. 이것이 실제 절약으로 이어지는지는 Mini가 품질 저하 없이 작업을 처리하는지에 달려 있습니다. 모델 간 가격 비교표는 OpenAI의 GPT-5.5 모델 페이지를 참조하세요.

GPT-5.4 Mini에 캐시된 입력 요금이 적용되나요?

네. GPT-5.4 Mini의 캐시된 입력은 토큰 백만 개당 $0.075로, 표준 $0.75 요금 대비 90% 할인입니다. 프롬프트가 OpenAI가 이미 계산한 안정적인 프리픽스를 재사용할 때 자동으로 적용됩니다. 캐시는 몇 분간 비활성 상태 후 만료되며, 프리픽스가 충분히 길어야 합니다 (약 1,024 토큰). 출력 요금은 영향받지 않습니다.

GPT-5.4 Mini에 배치 할인이 있나요?

네. Batch API는 gpt 5.4 mini api 엔드포인트의 입력 및 출력 모두에 50% 고정 할인을 제공하며, 24시간 이내 처리됩니다. 유효 배치 요금은 백만 토큰당 입력 $0.375, 출력 $2.25입니다. Flex 가격은 비동기 큐잉 대신 가변 지연 시간으로 유사한 50% 할인을 제공합니다.

Mini에서 대용량 워크로드의 실제 비용을 어떻게 추정하나요?

세 가지 숫자: 요청당 입력 토큰, 요청당 출력 토큰, 월별 요청 수. 해당 요금을 곱하세요. 정확성을 위해 실제 요청 100건을 샘플링하고, 실제 토큰 수를 측정하고, 캐시 히트율을 확인하세요. 계산기는 상한을 제공합니다. 샘플링된 데이터가 현실을 제공합니다.

GPT-5.4 Mini가 저렴하더라도 작업에 너무 약한 경우는 언제인가요?

평가 세트에서 중요한 출력에 대해 GPT-5.4 또는 GPT-5.5에 비해 측정 가능한 품질 저하를 보이는 경우입니다. 일반적인 트리거: 다단계 추론, 긴 프롬프트에서의 지시 이행, 오답이 비싼 엣지 케이스, 세련된 글쓰기로 읽혀야 하는 출력. 절약은 작업이 수동 검토나 사용자 대면 오류로 밀려나면 실질적이지 않습니다. 먼저 평가를 실행하세요.

결론

GPT-5.4 Mini 가격은 서류상 간단합니다: 입력 $0.75, 캐시된 입력 $0.075, 출력 $4.50, 백만 토큰당. 숫자가 흥미로워지는 곳은 캐시 히트율, 출력 토큰 규율, 배치 라우팅, 그리고 모델이 실제로 작업에 충분한지 여부입니다.

토큰당 저렴한 요금은 필요조건이지 충분조건이 아닙니다. 출력 낭비, 캐싱 중단, 품질 저하는 각각 독립적으로 절약을 지울 수 있습니다. 수학은 자체 워크로드에서 직접 계산할 때만 작동합니다.

이번 달에 마이그레이션을 하나 더 진행 중입니다 — 현재 GPT-5.4에서 실행 중인 요약 파이프라인으로, 더 타이트한 출력 제한으로 Mini에서도 버틸 수 있을 것 같습니다. 비용 예측으로는 70% 절약. 평가 결과가 어떻게 나올지 지켜보겠습니다. 다음 주에 계속됩니다.

이전 게시물: