GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: Zhipu AI 최신 모델 성능 비교
Zhipu AI의 GLM-5.1은 Claude Opus 4.6 코딩 성능의 94.6%를 달성했다고 주장합니다 — 화웨이 칩으로만 훈련된 오픈 웨이트 모델입니다. 2026년 모든 최전선 LLM과의 비교를 살펴보세요.
Zhipu AI가 2026년 3월 27일 GLM-5.1을 공개했으며, 그 수치가 주목을 받고 있습니다. 1월 홍콩 증권거래소에 313억 달러 기업가치로 상장한 이 중국 AI 연구소는 최신 모델이 **Claude Opus 4.6 코딩 성능의 94.6%**에 도달한다고 주장합니다. 오픈 웨이트 모델이면서 Nvidia 하드웨어 없이 완전히 학습되었다는 점에서 더욱 눈길을 끕니다.
GLM-5.1이 2026년 주요 프론티어 모델들과 어떻게 비교되는지 살펴봅니다.
GLM-5.1이란?
GLM-5.1은 GLM-5의 점진적 업그레이드 버전으로, 향상된 포스트 트레이닝을 통해 코딩과 추론 능력을 개선하는 데 집중했습니다. 기본 아키텍처는 GLM-5와 동일합니다:
| 사양 | 세부 정보 |
|---|---|
| 총 파라미터 | 744B (Mixture-of-Experts) |
| 활성 파라미터 | 토큰당 40~44B |
| 전문가 아키텍처 | 전문가 256개, 토큰당 8개 활성화 |
| 컨텍스트 윈도우 | 200K 토큰 |
| 최대 출력 | 131,072 토큰 |
| 학습 데이터 | 28.5조 토큰 |
| 학습 하드웨어 | Huawei Ascend 910B 칩 100,000개 |
| 라이선스 | MIT (오픈 웨이트) |
학습 인프라 관련 사실은 특히 주목할 만합니다. GLM-5와 5.1은 Huawei Ascend 칩만으로 완전히 학습되었습니다. Nvidia GPU는 전혀 사용되지 않았습니다. 미국의 대중국 AI 칩 수출 규제를 감안하면, 이는 중국 AI 자립의 중요한 이정표입니다.
5.1의 새로운 점
GLM-5.1은 새로운 아키텍처가 아니라 코딩에 초점을 맞춘 GLM-5의 포스트 트레이닝 개선 버전입니다:
- 코딩 벤치마크 점수가 35.4 (GLM-5)에서 45.3 (GLM-5.1)으로 향상 — 28% 개선
- 이는 Claude Opus 4.6 코딩 점수의 94.6% 수준 (45.3 대 47.9)
- 점진적 정렬 방식으로 개선: 멀티태스크 SFT → 추론 RL → 에이전틱 RL → 일반 RL → 온폴리시 크로스 스테이지 증류
벤치마크 비교
GLM-5/5.1이 벤치마크 데이터가 있는 모든 프론티어 모델과 어떻게 비교되는지 살펴봅니다:
추론 및 지식
| 모델 | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2 (OpenAI) | 92.4% | 100% | ~90% | N/A |
| Claude Opus 4.6 (Anthropic) | 91.3% | 99.8% | 91.1% | 53.1% |
| Qwen 3.5 (Alibaba) | 88.4% | N/A | 88.5% | N/A |
| GLM-5 (Zhipu AI) | 86.0% | 92.7% | 88~92% | 30.5 |
| DeepSeek V3.2 | N/A | 89.3% | ~88.5% | N/A |
| Gemini 2.5 Pro (Google) | 84.0% | 86.7% | 89.8% | 18.8% |
| Llama 4 Maverick (Meta) | 84.0% | 83.0% | 85.5% | N/A |
GLM-5는 추론 부문에서 선전하고 있습니다. 특히 AIME 2025(92.7%)에서 DeepSeek, Gemini, Llama를 앞섭니다. 다만 GPQA Diamond와 Humanity’s Last Exam에서는 Claude Opus 4.6 및 GPT-5.2에 뒤처집니다.
코딩
| 모델 | SWE-bench Verified | LiveCodeBench | 코딩 점수 |
|---|---|---|---|
| Claude Opus 4.6 | 80.8% | N/A | 47.9 |
| GPT-5.2 | 80.0% | N/A | N/A |
| GLM-5.1 | 77.8% | 52.0% | 45.3 |
| Qwen 3.5 | 76.4% | 83.6% | N/A |
| DeepSeek V3.2 | 73.1% | 74.1% | N/A |
| Gemini 2.5 Pro | 63.8% | 70.4% | N/A |
| Llama 4 Maverick | N/A | 39.7~70.4% | N/A |
GLM-5.1의 코딩 성능 향상은 핵심 특징입니다. **SWE-bench Verified 77.8%**로 최상위 클로즈드 소스 모델들과 경쟁할 수 있는 수준입니다. Claude Opus 4.6(80.8%)과 GPT-5.2(80.0%)에 불과 3점 차이입니다. 오픈 웨이트 모델로서는 매우 뛰어난 성과입니다.
인간 선호도 (Chatbot Arena)
| 모델 | Arena ELO | 순위 |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | 최상위권 |
GLM-5는 LMArena의 텍스트 아레나와 코드 아레나 모두에서 오픈 웨이트 모델 중 1위를 기록했습니다. 전체 순위에서 Opus 4.6에 뒤처지지만, 인간 선호도 면에서 강한 면모를 보여줍니다.
가격 비교
GLM-5.1의 가장 강력한 장점 중 하나는 비용입니다.
| 모델 | 입력 (100만 토큰당) | 출력 (100만 토큰당) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1은 Claude Opus 4.6이나 GPT-5.2의 몇 분의 일 비용으로 프론티어에 근접한 성능을 제공합니다. 순수 가격 면에서 GLM-5.1을 밑도는 것은 DeepSeek뿐입니다.
Zhipu AI는 GLM Coding Plan 구독도 제공합니다:
- Lite: 월 $3, 120회 프롬프트
- Pro: 월 $15, 600회 프롬프트
Claude Max의 월 $100~200과 비교해 보세요.
GLM-5.1의 차별점
1. 프론티어 규모의 오픈 웨이트
GLM-5는 Artificial Analysis Intelligence Index에서 50점을 달성한 최초의 오픈 웨이트 모델입니다. 가중치는 MIT 라이선스(zai-org/GLM-5) 하에 HuggingFace에서 제공되며, vLLM, SGLang, KTransformers를 통해 배포할 수 있습니다. GLM-5.1 가중치는 공개 예정이지만 아직 릴리스되지 않았습니다.
2. Nvidia 불필요
Huawei Ascend 910B 칩 100,000개로 학습된 GLM-5/5.1은 Nvidia 하드웨어 없이도 프론티어 AI 학습이 가능하다는 것을 증명합니다. 이는 기술적 성취를 넘어 지정학적 함의를 갖습니다.
3. 적극적인 포스트 트레이닝
GLM-5에서 5.1로의 28% 코딩 성능 향상은 전적으로 포스트 트레이닝 최적화에서 비롯되었습니다. 동일한 기본 모델에 더 나은 정렬을 적용한 것입니다. Zhipu의 “점진적 정렬” 파이프라인(멀티태스크 SFT → 다단계 RL → 크로스 스테이지 증류)이 실질적인 성과를 내고 있습니다.
4. 환각 감소
GLM-5는 AA-Omniscience Index에서 GLM-4.7 대비 35점 향상을 보였으며, 유사한 작업에서 토큰 효율도 개선되었습니다(약 1억 1천만 출력 토큰 대 약 1억 7천만 토큰). 더 적게 말하고 더 정확하게 답합니다.
한계점
- 텍스트 전용. 이미지, 오디오, 동영상 입력 불가. 멀티모달 작업에는 Claude, GPT, 또는 Gemini가 필요합니다.
- 자체 보고 코딩 점수. Opus의 94.6% 주장은 Claude Code를 평가 프레임워크로 사용합니다. 독립적인 검증은 아직 진행 중입니다.
- 스토리지 요구 사항. 전체 BF16 모델은 약 1.49TB가 필요하므로 자체 호스팅이 쉽지 않습니다.
- GLM-5.1 가중치 미공개. 현재 오픈 웨이트로 제공되는 것은 GLM-5뿐입니다.
어떤 모델을 선택할까
GLM-5.1을 선택하는 경우:
- 낮은 비용으로 프론티어급 코딩 성능이 필요할 때
- 배포 환경에서 오픈 웨이트 / 자체 호스팅이 중요할 때
- Huawei Ascend 기반 중국 클라우드 인프라에서 개발할 때
- 예산이 주요 제약이고 DeepSeek가 요구 사항을 충족하지 못할 때
Claude Opus 4.6을 선택하는 경우:
- 모든 작업에서 최대 성능이 우선순위일 때
- 최고의 추론 능력이 필요할 때 (GPQA 91.3%, HLE 53.1%, AIME 99.8%)
- 에이전틱 워크플로우와 복잡한 다단계 작업이 주요 사용 사례일 때
- 멀티모달 기능이 필요할 때
GPT-5.2를 선택하는 경우:
- 완벽한 수학 점수가 중요할 때 (AIME 100%)
- OpenAI 생태계를 사용할 때
- 강력한 멀티모달 및 도구 사용 기능이 필요할 때
DeepSeek V3.2를 선택하는 경우:
- 비용 효율이 최우선일 때 (100만 토큰당 $0.27/$1.10)
- 강력한 코딩 성능의 오픈 소스가 필요할 때 (SWE-bench 73.1%)
- 가장 저렴한 프론티어 근접 옵션을 원할 때
Qwen 3.5를 선택하는 경우:
- 최고의 오픈 소스 LiveCodeBench 성능이 필요할 때 (83.6%)
- 오픈 웨이트로 SWE-bench 76.4%면 충분할 때
- 오픈 모델 중 강력한 GPQA Diamond 성능이 필요할 때 (88.4%)
결론
GLM-5.1은 진정한 프론티어 근접 모델입니다. Claude Opus 4.6 코딩 성능의 94.6%, SWE-bench Verified 77.8%, 100만 토큰당 $1.00/$3.20의 가격으로 매우 매력적인 가치를 제공합니다. 특히 오픈 웨이트 모델이라는 점에서 더욱 그렇습니다.
더 큰 그림은 GLM-5.1이 상징하는 바에 있습니다. 중국 연구소가 국산 하드웨어로 프론티어 경쟁력 있는 AI를 개발하고, 이를 오픈 웨이트로 공개하며, 공격적인 가격을 책정하고 있다는 사실입니다. 최상위 클로즈드 소스 모델(Claude Opus 4.6, GPT-5.2)과 최상위 오픈 모델(GLM-5.1, Qwen 3.5, DeepSeek) 사이의 격차는 계속 좁혀지고 있습니다.
개발자에게는 더 낮은 비용으로 더 많은 선택지가 생긴다는 의미이며, 산업 전반적으로는 프론티어가 점점 더 치열해지고 있다는 것을 뜻합니다. 이는 모두에게 좋은 일입니다.



