Gemini 3.5 Flash 출시 — 플래시 티어 모델이 에이전트 벤치마크에서 프로 티어를 앞서다
Gemini 3.5 Flash가 I/O 2026에서 기본 사고 활성화, 100만 토큰당 $1.50/$9 가격으로 GA 출시됐습니다. MCP Atlas 및 주요 에이전트 벤치마크에서 Claude Opus 4.7과 GPT-5.5를 능가하는 성능을 보여줍니다. Flash가 앞서는 영역, 뒤처지는 영역, 그리고 배포 방법을 알아보세요.
Google는 2026년 5월 19일, I/O 발표와 동시에 Gemini 3.5 Flash를 일반 공개(GA)로 출시했습니다 — Gemini API, AI Studio, Antigravity, Vertex AI, Gemini 앱, Search의 AI Mode 전반에 걸쳐 제공됩니다. 모델 ID는 gemini-3.5-flash(프리뷰 접미사 없음)이며, 2026년 5월 스냅샷은 3.5-flash-05-2026, 가격은 입력 $1.50 / 출력 $9.00 per 1M 토큰, 캐시된 입력은 $0.15/1M입니다.
헤드라인 수치는 벤치마크에 있습니다. Flash 티어 모델이 대부분의 에이전트 스위트에서 Pro 티어 프론티어 모델을 앞질렀습니다. Claude Opus 4.7과 GPT-5.5 — 둘 다 Pro 클래스이며 훨씬 더 비쌉니다 — 는 MCP Atlas, Toolathlon, Finance Agent v2에서 Flash에 뒤처집니다. 코딩은 더 혼재되어 있고, Flash가 여전히 뒤지는 카테고리가 있습니다. 아래는 전체 그림, 트레이드오프에 대한 솔직한 분석, 그리고 배포 방향입니다.
출시 내용 요약표
| 세부 사항 | 값 |
|---|---|
| 모델 ID | gemini-3.5-flash |
| 스냅샷 | 3.5-flash-05-2026 |
| 입력 가격 | $1.50/1M 토큰 |
| 출력 가격 | $9.00/1M 토큰 |
| 캐시 입력 | $0.15/1M 토큰 |
| 입력 모달리티 | 텍스트 + 이미지 + 오디오 + 비디오 |
| 출력 모달리티 | 텍스트 |
| 컨텍스트 윈도우 | 입력 1,048,576 / 출력 65,536 |
| 추론(Thinking) | 동적 추론 기본 활성화 |
| 툴 사용 | 함수 호출, 구조화된 출력, 검색-as-툴, 코드 실행 |
| 가용성 | Gemini API, AI Studio, Antigravity, Vertex AI, Gemini 앱, Search AI Mode |
| 속도 | 프론티어 동급 대비 출력 토큰/초 약 4× |
“thinking on by default” 세부 사항은 스펙 시트가 보여주는 것보다 훨씬 중요합니다. 이것은 요청별로 설정하는 thinking_budget 파라미터가 아닙니다 — Flash는 동적 추론이 내장되어 있습니다. 모델이 프롬프트에 따라 얼마나 추론할지 스스로 결정합니다. 레이턴시 예산을 고려하는 프로덕션 코드에서 이는 Sonnet 4.6의 extended-thinking 토글이나 GPT-5.5의 reasoning 파라미터와는 다른 배포 형태입니다.
에이전트 벤치마크: Flash vs Pro 티어
크로스 벤더 데이터에서 Flash의 포지셔닝이 명확해집니다. Digital Applied의 에이전틱 코딩 분석과 LLM Stats의 출시 분석의 출시 비교에서 가져온 데이터입니다:
| 벤치마크 | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.5 | 승자 |
|---|---|---|---|---|
| MCP Atlas | 83.6% | 79.1% | 75.3% | Flash (+4.5 / +8.3) |
| Toolathlon | 56.5% | — | — | Flash |
| Finance Agent v2 | 57.9% | — | — | Flash |
| CharXiv Reasoning | 84.2% | — | — | Flash |
| MMMU-Pro | 83.6% | — | — | Flash |
| SWE-Bench Pro | — | 64.3% | — | Opus 4.7 |
| Terminal-Bench 2.1 | 76.2% | — | 78.2% | GPT-5.5 (+2.0) |
| OSWorld-Verified | — | — | 78.7% | GPT-5.5 |
| Blueprint-Bench 2 | — | — | 36.2% | GPT-5.5 |
| GDPval-AA | 1656 Elo | — | 1769 Elo | GPT-5.5 (+113) |
| ARC-AGI-2 | 72.1% | — | 84.6% | GPT-5.5 (+12.5) |
이 데이터를 세 가지 관점으로 분석합니다:
에이전트 오케스트레이션에서 Flash가 이제 기본 선택지입니다. MCP Atlas는 멀티스텝 툴 기반 워크플로우를 측정합니다 — 대부분의 엔터프라이즈 에이전트 스택이 실제로 배포하는 사용 사례입니다. Flash 가격으로 이 벤치마크에서 Opus를 4.5 포인트 앞서는 것은 달러당 능력에서 의미 있는 변화입니다. Toolathlon과 Finance Agent v2도 같은 패턴을 보여줍니다: 작업이 에이전틱(계획, 툴 호출, 결과 통합, 반복)한 곳 어디서나 Flash가 리드합니다.
터미널 스타일 코딩에서는 GPT-5.5가 여전히 근소하게 앞섭니다. Terminal-Bench 2.1에서의 2포인트 차이는 결정적이지 않습니다 — 하지만 GDPval-AA(113 Elo)와 OSWorld-Verified에서의 GPT-5.5 우세와 결합하면, 워크플로우가 “모델에게 터미널과 작업을 주는” 방식이라면 GPT-5.5가 여전히 올바른 선택입니다. Flash가 격차를 좁히고 있지만, 선두를 따라잡지는 못했습니다.
어려운 추상 추론에서 Flash는 실질적인 약점이 있습니다. ARC-AGI-2가 가장 명확한 신호입니다 — Flash는 GPT-5.5보다 12.5 포인트 뒤집니다. 이는 어제 Gemini 3.1 Pro 대비 Flash의 Humanity’s Last Exam과 장문 컨텍스트 검색 회귀에 대해 언급한 내용과 일치합니다. Flash 아키텍처가 속도와 비용을 위해 추론 깊이를 희생했음이 분명합니다. 6월에 출시될 Gemini 3.5 Pro가 그 트레이드오프의 답이 될 것으로 보입니다.
가격 비교
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 출력 비율 | 비고 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 6.0× | 캐시 입력 $0.15 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 5.0× | 1M 컨텍스트 고정 |
| Claude Opus 4.7 | $5.00 | $25.00 | 5.0× | Pro 티어 추론 |
| GPT-5.5 | $1.25 | $10.00 | 8.0× | 가장 저렴한 입력 |
| Gemini 3.1 Pro (이전) | $2.50 | $15.00 | 6.0× | Flash보다 40% 비쌈 |
Flash는 두 축 모두에서 Sonnet 4.6보다 저렴하면서 에이전트 벤치마크에서 Opus 4.7을 앞섭니다. 빌더들이 흡수해야 할 가격 이야기는 이것입니다: 에이전트 오케스트레이션 기본 선택지의 입력 비용이 50%, 출력 비용이 40% 저렴해졌고, 같은 티어의 이전 기본 선택지보다 의미 있게 향상된 벤치마크 프로파일을 갖습니다.
$0.15/1M 캐시 입력 가격은 RAG나 메모리 집약적 워크플로우의 수익성 계산을 크게 유리하게 만듭니다. 요청당 500K 토큰의 캐시된 컨텍스트를 공급한다면, Flash의 캐시 티어 가격은 Sonnet 4.6의 표준 입력 요금의 약 10%입니다. 이는 소수점 마진 차이가 아니라 완전히 다른 비용 등급입니다.
오늘 프로덕션에서 Flash의 적합한 위치
벤치마크 데이터를 기반으로 한 구체적인 배포 판단:
Flash를 사용할 때:
- MCP / 툴 오케스트레이션 에이전트. Flash가 진정으로 선두를 보이는 곳이며, 가격 우위도 가장 큽니다.
- 단가가 최고 지능보다 중요한 고용량 API 워크플로우: 데이터 변환, 분류, 구조화된 추출, 배치 처리.
- 이미지/오디오/비디오 입력을 받아 텍스트를 출력하는 멀티모달 파이프라인 — Flash는 네 가지 입력 모달리티를 기본 지원합니다.
- 캐시 집약적 워크플로우 (장문 컨텍스트 RAG, 대화 메모리, 문서 검색) — $0.15/1M 캐시 입력은 프론티어 티어에서 가장 저렴합니다.
(아직) Flash를 사용하지 말아야 할 때:
- 어려운 추상 추론 — ARC-AGI-2 스타일 문제. GPT-5.5가 올바른 선택입니다.
- 128K+ 장문 컨텍스트 검색 — Flash는 이전 Gemini 3.1 Pro 대비 회귀가 있습니다. 6월의 3.5 Pro를 기다리세요.
- 순수 터미널 코딩 에이전트 — GPT-5.5가 Terminal-Bench에서 여전히 2포인트 우세하며, 이는 멀티스텝 코딩 워크플로우에서 누적됩니다.
- 요청별로 추론 예산을 제어해야 하는 워크플로우 — Flash는 추론이 내장되어 있으며, 파라미터로 노출되지 않습니다.
어제와 달라진 점
Flash 출시로 세 가지가 실질적으로 변했습니다:
- 기본 에이전트 모델이 더 이상 Pro 티어가 아닙니다. “감당할 수 있는 최선의 모델을 사용하라”는 조언은 에이전트 워크플로우에 더 이상 유효하지 않습니다. MCP 오케스트레이션 작업에서 Flash는 경쟁사 Pro 모델을 이기면서 비용도 더 저렴합니다.
- Gemini 텍스트 패밀리가 에이전틱 능력에서 따라잡았습니다. 출시 전, 지배적인 프레이밍은 “Gemini는 코딩/에이전트에서 뒤처진다”였습니다. 출시 후, Flash는 대부분의 에이전트 스위트에서 선두를 달리고 코딩에서도 경쟁력을 갖습니다. 이 서사는 업데이트가 필요합니다.
- 추론 격차가 좁아지지 않고 오히려 커졌습니다. Flash의 ARC-AGI-2와 Humanity’s Last Exam에서의 회귀는 실재합니다. 6월의 Pro 출시가 Gemini가 그 특정 격차를 해소하는지 여부의 핵심 이벤트가 되었습니다.
배포 경로
오늘의 가장 명확한 배포 형태는 어떤 환경에 있느냐에 달려 있습니다:
- Google을 통한 직접 프로덕션 API: Vertex AI 또는 AI Studio를 통한
gemini-3.5-flash. 두 경로 모두 동일한 모델을 제공합니다. - Antigravity(Google의 IDE 스타일 코딩 환경)에서: 대부분의 워크플로우에서
gemini-3.1-pro에서gemini-3.5-flash로 기본 모델을 교체하는 것이 올바른 방향입니다. - 멀티 벤더 라우터에서: 에이전트 오케스트레이션 정책에
gemini-3.5-flash를 추가하세요. MCP / 툴 집약적 경로에는 Flash를 먼저 라우팅하고, 터미널 코딩과 ARC 스타일 추론에는 GPT-5.5로 폴백하세요. - WaveSpeedAI에서: WaveSpeedAI LLM 엔드포인트는 하나의 API 키로 현재 프론티어 텍스트 모델에 OpenAI 호환 접근을 제공합니다. Gemini 3.5 Flash가 통합되면 동일한 환경에서 나머지 모델 라인업과 A/B 테스트를 진행할 수 있습니다.
6월에 주목할 사항
향후 4주 안에 해결될 두 가지:
- Gemini 3.5 Pro 출시. Flash의 추론 및 장문 컨텍스트 회귀가 수정되는지 여부의 답입니다. Pro가 Humanity’s Last Exam에서 3.1 Pro를 앞서고 동시에 Terminal-Bench에서 Flash에 맞먹는다면, 전체 Gemini 3.5 패밀리가 새로운 기본 선택지가 됩니다. Pro가 단순히 높은 비용으로 회귀를 패치하는 수준이라면, 라인업은 계속 양분될 것입니다.
- 독립적인 에이전트 벤치마크 재현. Google의 MCP Atlas / Toolathlon / Finance Agent 수치는 자사 데이터입니다. 흥미로운 질문은 서드파티 에이전트 벤치마크 스위트(LangChain Bench, MetaGPT eval 등)가 이 우위를 재현하는지 여부입니다. 향후 2-3주 내에 재현 연구를 주목하세요.
그때까지: Flash는 출시되었고, 에이전트 오케스트레이션 비용은 낮아졌으며, 이번 주 대부분의 빌더들이 직면한 질문은 지금 당장 에이전트 경로를 Opus 4.7에서 gemini-3.5-flash로 마이그레이션할 것인지, 아니면 3.5 Pro를 기다릴 것인지입니다.
