GLM-5.1 vs Claude、GPT、Gemini、DeepSeek:智谱AI最新模型综合评测
智谱AI的GLM-5.1声称达到Claude Opus 4.6编程性能的94.6%——完全基于华为芯片训练,并开放权重。以下是它与2026年各大前沿LLM的详细对比。
智谱AI于2026年3月27日正式发布了GLM-5.1,相关数据令业界瞩目。这家中国AI公司——今年一月以313亿美元估值在香港交易所上市——宣称其最新模型在编程性能上达到了Claude Opus 4.6的94.6%,同时以开放权重形式发布,且整个训练过程完全未使用英伟达硬件。
以下是GLM-5.1与2026年所有主流前沿模型的全面对比。
GLM-5.1是什么?
GLM-5.1是GLM-5的增量升级版本,通过增强的后训练流程专注于提升编程与推理能力。其基础架构与GLM-5相同:
| 规格 | 详情 |
|---|---|
| 总参数量 | 744B(混合专家架构) |
| 活跃参数量 | 每个token激活40-44B |
| 专家架构 | 256个专家,每个token激活8个 |
| 上下文窗口 | 200K tokens |
| 最大输出 | 131,072 tokens |
| 训练数据 | 28.5万亿tokens |
| 训练硬件 | 10万块华为昇腾910B芯片 |
| 许可证 | MIT(开放权重) |
训练基础设施的背景意义重大:GLM-5与5.1完全在华为昇腾芯片上训练——未使用任何英伟达GPU。鉴于美国对华AI芯片出口管制,这对中国AI自主化而言是一个重要里程碑。
5.1的新特性
GLM-5.1并非全新架构——它是针对编程能力的GLM-5后训练精化版本:
- 编程基准分数从35.4(GLM-5)提升至45.3(GLM-5.1)——提升幅度达28%
- 这使其达到了Claude Opus 4.6编程分数的94.6%(45.3 vs 47.9)
- 通过渐进式对齐方法增强:多任务SFT → 推理RL → 智能体RL → 通用RL → 在线跨阶段蒸馏
基准测试对比
以下是GLM-5/5.1与所有有可用基准数据的前沿模型的横向比较:
推理与知识
| 模型 | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2(OpenAI) | 92.4% | 100% | ~90% | N/A |
| Claude Opus 4.6(Anthropic) | 91.3% | 99.8% | 91.1% | 53.1% |
| Qwen 3.5(阿里巴巴) | 88.4% | N/A | 88.5% | N/A |
| GLM-5(智谱AI) | 86.0% | 92.7% | 88-92% | 30.5 |
| DeepSeek V3.2 | N/A | 89.3% | ~88.5% | N/A |
| Gemini 2.5 Pro(Google) | 84.0% | 86.7% | 89.8% | 18.8% |
| Llama 4 Maverick(Meta) | 84.0% | 83.0% | 85.5% | N/A |
GLM-5在推理方面表现出色——尤其是AIME 2025(92.7%),超越了DeepSeek、Gemini和Llama。但在GPQA Diamond和人类终极考试(HLE)上仍落后于Claude Opus 4.6和GPT-5.2。
编程能力
| 模型 | SWE-bench Verified | LiveCodeBench | 编程分数 |
|---|---|---|---|
| Claude Opus 4.6 | 80.8% | N/A | 47.9 |
| GPT-5.2 | 80.0% | N/A | N/A |
| GLM-5.1 | 77.8% | 52.0% | 45.3 |
| Qwen 3.5 | 76.4% | 83.6% | N/A |
| DeepSeek V3.2 | 73.1% | 74.1% | N/A |
| Gemini 2.5 Pro | 63.8% | 70.4% | N/A |
| Llama 4 Maverick | N/A | 39.7-70.4% | N/A |
GLM-5.1的编程能力提升是其核心亮点。以77.8%的SWE-bench Verified成绩,它足以与顶级闭源模型相抗衡——仅落后于Claude Opus 4.6(80.8%)和GPT-5.2(80.0%)3个百分点。对于一个开放权重模型而言,这一成绩相当出色。
人类偏好(Chatbot Arena)
| 模型 | Arena ELO | 排名 |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | 顶级 |
GLM-5在LMArena的文本竞技场和代码竞技场中均排名开放权重模型第一——即便整体落后于Opus 4.6,人类偏好评分依然亮眼。
价格对比
GLM-5.1最强的卖点之一是成本优势。
| 模型 | 输入(每百万tokens) | 输出(每百万tokens) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1以极低的成本提供接近前沿水平的性能——仅为Claude Opus 4.6或GPT-5.2费用的一小部分。纯价格方面,只有DeepSeek比它更低。
智谱AI还提供GLM编程计划订阅:
- Lite版:每月$3,包含120次提问
- Pro版:每月$15,包含600次提问
相比之下,Claude Max的月费为$100-200。
GLM-5.1的核心优势
1. 前沿规模的开放权重
GLM-5是首个在Artificial Analysis智能指数上突破50分的开放权重模型。权重以MIT许可证发布在HuggingFace(zai-org/GLM-5),支持通过vLLM、SGLang和KTransformers部署。GLM-5.1的权重已承诺发布但尚未放出。
2. 无需英伟达硬件
在10万块华为昇腾910B芯片上完成训练,GLM-5/5.1证明了前沿AI训练无需英伟达硬件即可实现。这一成就的地缘政治意义超越了技术本身。
3. 激进的后训练优化
GLM-5到5.1编程能力28%的提升完全来自后训练优化——相同的基础模型,更好的对齐效果。智谱的”渐进式对齐”流程(多任务SFT → 多阶段RL → 跨阶段蒸馏)正在产生实实在在的收益。
4. 降低幻觉率
GLM-5在AA-Omniscience指数上相比GLM-4.7提升了35分,token利用率更高(相似任务约消耗1.1亿输出tokens,而对手约需1.7亿)。说得更少,答得更准。
局限性
- 纯文本模型。 不支持图片、音频或视频输入。多模态任务仍需使用Claude、GPT或Gemini。
- 编程分数系自报。 94.6%-of-Opus的说法以Claude Code作为评估框架,独立验证尚未完成。
- 存储需求高。 完整BF16模型需要约1.49TB存储空间——自托管并不简单。
- GLM-5.1权重尚未发布。 目前仅GLM-5为开放权重。
各模型适用场景
选择GLM-5.1,当你:
- 需要以低成本获得前沿级别的编程性能
- 开放权重/自托管对你的部署至关重要
- 正在基于中国云基础设施(华为昇腾)构建应用
- 预算是首要约束且DeepSeek无法满足你的需求
选择Claude Opus 4.6,当你:
- 追求全任务最强能力
- 需要最佳推理性能(GPQA 91.3%、HLE 53.1%、AIME 99.8%)
- 智能体工作流和复杂多步骤任务是你的核心场景
- 需要多模态能力
选择GPT-5.2,当你:
- 完美的数学分数至关重要(AIME 100%)
- 你在OpenAI生态系统中
- 需要强大的多模态和工具调用能力
选择DeepSeek V3.2,当你:
- 成本效率是首要考量(每百万tokens $0.27/$1.10)
- 需要强编程能力的开源模型(SWE-bench 73.1%)
- 想要最便宜的接近前沿性能的选项
选择Qwen 3.5,当你:
- 需要最佳开源LiveCodeBench表现(83.6%)
- 开放权重下77.8%的SWE-bench已满足需求
- 在开放模型中需要强劲的GPQA Diamond成绩(88.4%)
总结
GLM-5.1是一个真正接近前沿水平的模型。以Claude Opus 4.6编程性能的94.6%、77.8%的SWE-bench Verified成绩,以及每百万tokens $1.00/$3.20的定价,它提供了极具竞争力的价值主张——尤其作为一个开放权重模型。
更深层的意义在于GLM-5.1所代表的:一家中国实验室在自主硬件上训练出达到前沿水平的AI,以开放权重形式发布,并以激进的价格推向市场。最佳闭源模型(Claude Opus 4.6、GPT-5.2)与最佳开放模型(GLM-5.1、Qwen 3.5、DeepSeek)之间的差距正在持续缩小。
对开发者而言,这意味着更多选择,更低成本。对整个行业而言,这意味着前沿赛道日益拥挤——而这对所有人都是好事。



