← 博客

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek:智谱AI最新模型综合评测

智谱AI的GLM-5.1声称达到Claude Opus 4.6编程性能的94.6%——完全基于华为芯片训练,并开放权重。以下是它与2026年各大前沿LLM的详细对比。

3 min read

智谱AI于2026年3月27日正式发布了GLM-5.1,相关数据令业界瞩目。这家中国AI公司——今年一月以313亿美元估值在香港交易所上市——宣称其最新模型在编程性能上达到了Claude Opus 4.6的94.6%,同时以开放权重形式发布,且整个训练过程完全未使用英伟达硬件。

以下是GLM-5.1与2026年所有主流前沿模型的全面对比。

GLM-5.1是什么?

GLM-5.1是GLM-5的增量升级版本,通过增强的后训练流程专注于提升编程与推理能力。其基础架构与GLM-5相同:

规格详情
总参数量744B(混合专家架构)
活跃参数量每个token激活40-44B
专家架构256个专家,每个token激活8个
上下文窗口200K tokens
最大输出131,072 tokens
训练数据28.5万亿tokens
训练硬件10万块华为昇腾910B芯片
许可证MIT(开放权重)

训练基础设施的背景意义重大:GLM-5与5.1完全在华为昇腾芯片上训练——未使用任何英伟达GPU。鉴于美国对华AI芯片出口管制,这对中国AI自主化而言是一个重要里程碑。

5.1的新特性

GLM-5.1并非全新架构——它是针对编程能力的GLM-5后训练精化版本:

  • 编程基准分数从35.4(GLM-5)提升至45.3(GLM-5.1)——提升幅度达28%
  • 这使其达到了Claude Opus 4.6编程分数的94.6%(45.3 vs 47.9)
  • 通过渐进式对齐方法增强:多任务SFT → 推理RL → 智能体RL → 通用RL → 在线跨阶段蒸馏

基准测试对比

以下是GLM-5/5.1与所有有可用基准数据的前沿模型的横向比较:

推理与知识

模型GPQA DiamondAIME 2025MMLUHLE
GPT-5.2(OpenAI)92.4%100%~90%N/A
Claude Opus 4.6(Anthropic)91.3%99.8%91.1%53.1%
Qwen 3.5(阿里巴巴)88.4%N/A88.5%N/A
GLM-5(智谱AI)86.0%92.7%88-92%30.5
DeepSeek V3.2N/A89.3%~88.5%N/A
Gemini 2.5 Pro(Google)84.0%86.7%89.8%18.8%
Llama 4 Maverick(Meta)84.0%83.0%85.5%N/A

GLM-5在推理方面表现出色——尤其是AIME 2025(92.7%),超越了DeepSeek、Gemini和Llama。但在GPQA Diamond和人类终极考试(HLE)上仍落后于Claude Opus 4.6和GPT-5.2。

编程能力

模型SWE-bench VerifiedLiveCodeBench编程分数
Claude Opus 4.680.8%N/A47.9
GPT-5.280.0%N/AN/A
GLM-5.177.8%52.0%45.3
Qwen 3.576.4%83.6%N/A
DeepSeek V3.273.1%74.1%N/A
Gemini 2.5 Pro63.8%70.4%N/A
Llama 4 MaverickN/A39.7-70.4%N/A

GLM-5.1的编程能力提升是其核心亮点。以77.8%的SWE-bench Verified成绩,它足以与顶级闭源模型相抗衡——仅落后于Claude Opus 4.6(80.8%)和GPT-5.2(80.0%)3个百分点。对于一个开放权重模型而言,这一成绩相当出色。

人类偏好(Chatbot Arena)

模型Arena ELO排名
Claude Opus 4.6~1503#1
GLM-51451顶级

GLM-5在LMArena的文本竞技场和代码竞技场中均排名开放权重模型第一——即便整体落后于Opus 4.6,人类偏好评分依然亮眼。

价格对比

GLM-5.1最强的卖点之一是成本优势。

模型输入(每百万tokens)输出(每百万tokens)
GLM-5.1$1.00$3.20
DeepSeek V3.2$0.27$1.10
Claude Sonnet 4.6$3.00$15.00
GPT-5.2$3.00$12.00
Claude Opus 4.6$15.00$75.00
Gemini 2.5 Pro$1.25$10.00

GLM-5.1以极低的成本提供接近前沿水平的性能——仅为Claude Opus 4.6或GPT-5.2费用的一小部分。纯价格方面,只有DeepSeek比它更低。

智谱AI还提供GLM编程计划订阅:

  • Lite版:每月$3,包含120次提问
  • Pro版:每月$15,包含600次提问

相比之下,Claude Max的月费为$100-200。

GLM-5.1的核心优势

1. 前沿规模的开放权重

GLM-5是首个在Artificial Analysis智能指数上突破50分的开放权重模型。权重以MIT许可证发布在HuggingFace(zai-org/GLM-5),支持通过vLLM、SGLang和KTransformers部署。GLM-5.1的权重已承诺发布但尚未放出。

2. 无需英伟达硬件

在10万块华为昇腾910B芯片上完成训练,GLM-5/5.1证明了前沿AI训练无需英伟达硬件即可实现。这一成就的地缘政治意义超越了技术本身。

3. 激进的后训练优化

GLM-5到5.1编程能力28%的提升完全来自后训练优化——相同的基础模型,更好的对齐效果。智谱的”渐进式对齐”流程(多任务SFT → 多阶段RL → 跨阶段蒸馏)正在产生实实在在的收益。

4. 降低幻觉率

GLM-5在AA-Omniscience指数上相比GLM-4.7提升了35分,token利用率更高(相似任务约消耗1.1亿输出tokens,而对手约需1.7亿)。说得更少,答得更准。

局限性

  • 纯文本模型。 不支持图片、音频或视频输入。多模态任务仍需使用Claude、GPT或Gemini。
  • 编程分数系自报。 94.6%-of-Opus的说法以Claude Code作为评估框架,独立验证尚未完成。
  • 存储需求高。 完整BF16模型需要约1.49TB存储空间——自托管并不简单。
  • GLM-5.1权重尚未发布。 目前仅GLM-5为开放权重。

各模型适用场景

选择GLM-5.1,当你:

  • 需要以低成本获得前沿级别的编程性能
  • 开放权重/自托管对你的部署至关重要
  • 正在基于中国云基础设施(华为昇腾)构建应用
  • 预算是首要约束且DeepSeek无法满足你的需求

选择Claude Opus 4.6,当你:

  • 追求全任务最强能力
  • 需要最佳推理性能(GPQA 91.3%、HLE 53.1%、AIME 99.8%)
  • 智能体工作流和复杂多步骤任务是你的核心场景
  • 需要多模态能力

选择GPT-5.2,当你:

  • 完美的数学分数至关重要(AIME 100%)
  • 你在OpenAI生态系统中
  • 需要强大的多模态和工具调用能力

选择DeepSeek V3.2,当你:

  • 成本效率是首要考量(每百万tokens $0.27/$1.10)
  • 需要强编程能力的开源模型(SWE-bench 73.1%)
  • 想要最便宜的接近前沿性能的选项

选择Qwen 3.5,当你:

  • 需要最佳开源LiveCodeBench表现(83.6%)
  • 开放权重下77.8%的SWE-bench已满足需求
  • 在开放模型中需要强劲的GPQA Diamond成绩(88.4%)

总结

GLM-5.1是一个真正接近前沿水平的模型。以Claude Opus 4.6编程性能的94.6%、77.8%的SWE-bench Verified成绩,以及每百万tokens $1.00/$3.20的定价,它提供了极具竞争力的价值主张——尤其作为一个开放权重模型。

更深层的意义在于GLM-5.1所代表的:一家中国实验室在自主硬件上训练出达到前沿水平的AI,以开放权重形式发布,并以激进的价格推向市场。最佳闭源模型(Claude Opus 4.6、GPT-5.2)与最佳开放模型(GLM-5.1、Qwen 3.5、DeepSeek)之间的差距正在持续缩小。

对开发者而言,这意味着更多选择,更低成本。对整个行业而言,这意味着前沿赛道日益拥挤——而这对所有人都是好事。