GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智谱AI最新模型综合评测

智谱AI于2026年3月27日正式发布了GLM-5.1，相关数据令业界瞩目。这家中国AI公司——今年一月以313亿美元估值在香港交易所上市——宣称其最新模型在编程性能上达到了Claude Opus 4.6的94.6%，同时以开放权重形式发布，且整个训练过程完全未使用英伟达硬件。

以下是GLM-5.1与2026年所有主流前沿模型的全面对比。

GLM-5.1是什么？

GLM-5.1是GLM-5的增量升级版本，通过增强的后训练流程专注于提升编程与推理能力。其基础架构与GLM-5相同：

规格	详情
总参数量	744B（混合专家架构）
活跃参数量	每个token激活40-44B
专家架构	256个专家，每个token激活8个
上下文窗口	200K tokens
最大输出	131,072 tokens
训练数据	28.5万亿tokens
训练硬件	10万块华为昇腾910B芯片
许可证	MIT（开放权重）

训练基础设施的背景意义重大：GLM-5与5.1完全在华为昇腾芯片上训练——未使用任何英伟达GPU。鉴于美国对华AI芯片出口管制，这对中国AI自主化而言是一个重要里程碑。

5.1的新特性

GLM-5.1并非全新架构——它是针对编程能力的GLM-5后训练精化版本：

编程基准分数从35.4（GLM-5）提升至45.3（GLM-5.1）——提升幅度达28%
这使其达到了Claude Opus 4.6编程分数的94.6%（45.3 vs 47.9）
通过渐进式对齐方法增强：多任务SFT → 推理RL → 智能体RL → 通用RL → 在线跨阶段蒸馏

基准测试对比

以下是GLM-5/5.1与所有有可用基准数据的前沿模型的横向比较：

推理与知识

模型	GPQA Diamond	AIME 2025	MMLU	HLE
GPT-5.2（OpenAI）	92.4%	100%	~90%	N/A
Claude Opus 4.6（Anthropic）	91.3%	99.8%	91.1%	53.1%
Qwen 3.5（阿里巴巴）	88.4%	N/A	88.5%	N/A
GLM-5（智谱AI）	86.0%	92.7%	88-92%	30.5
DeepSeek V3.2	N/A	89.3%	~88.5%	N/A
Gemini 2.5 Pro（Google）	84.0%	86.7%	89.8%	18.8%
Llama 4 Maverick（Meta）	84.0%	83.0%	85.5%	N/A

GLM-5在推理方面表现出色——尤其是AIME 2025（92.7%），超越了DeepSeek、Gemini和Llama。但在GPQA Diamond和人类终极考试（HLE）上仍落后于Claude Opus 4.6和GPT-5.2。

编程能力

模型	SWE-bench Verified	LiveCodeBench	编程分数
Claude Opus 4.6	80.8%	N/A	47.9
GPT-5.2	80.0%	N/A	N/A
GLM-5.1	77.8%	52.0%	45.3
Qwen 3.5	76.4%	83.6%	N/A
DeepSeek V3.2	73.1%	74.1%	N/A
Gemini 2.5 Pro	63.8%	70.4%	N/A
Llama 4 Maverick	N/A	39.7-70.4%	N/A

GLM-5.1的编程能力提升是其核心亮点。以77.8%的SWE-bench Verified成绩，它足以与顶级闭源模型相抗衡——仅落后于Claude Opus 4.6（80.8%）和GPT-5.2（80.0%）3个百分点。对于一个开放权重模型而言，这一成绩相当出色。

人类偏好（Chatbot Arena）

模型	Arena ELO	排名
Claude Opus 4.6	~1503	#1
GLM-5	1451	顶级

GLM-5在LMArena的文本竞技场和代码竞技场中均排名开放权重模型第一——即便整体落后于Opus 4.6，人类偏好评分依然亮眼。

价格对比

GLM-5.1最强的卖点之一是成本优势。

模型	输入（每百万tokens）	输出（每百万tokens）
GLM-5.1	$1.00	$3.20
DeepSeek V3.2	$0.27	$1.10
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.2	$3.00	$12.00
Claude Opus 4.6	$15.00	$75.00
Gemini 2.5 Pro	$1.25	$10.00

GLM-5.1以极低的成本提供接近前沿水平的性能——仅为Claude Opus 4.6或GPT-5.2费用的一小部分。纯价格方面，只有DeepSeek比它更低。

智谱AI还提供GLM编程计划订阅：

Lite版：每月$3，包含120次提问
Pro版：每月$15，包含600次提问

相比之下，Claude Max的月费为$100-200。

GLM-5.1的核心优势

1. 前沿规模的开放权重

GLM-5是首个在Artificial Analysis智能指数上突破50分的开放权重模型。权重以MIT许可证发布在HuggingFace（zai-org/GLM-5），支持通过vLLM、SGLang和KTransformers部署。GLM-5.1的权重已承诺发布但尚未放出。

2. 无需英伟达硬件

在10万块华为昇腾910B芯片上完成训练，GLM-5/5.1证明了前沿AI训练无需英伟达硬件即可实现。这一成就的地缘政治意义超越了技术本身。

3. 激进的后训练优化

GLM-5到5.1编程能力28%的提升完全来自后训练优化——相同的基础模型，更好的对齐效果。智谱的”渐进式对齐”流程（多任务SFT → 多阶段RL → 跨阶段蒸馏）正在产生实实在在的收益。

4. 降低幻觉率

GLM-5在AA-Omniscience指数上相比GLM-4.7提升了35分，token利用率更高（相似任务约消耗1.1亿输出tokens，而对手约需1.7亿）。说得更少，答得更准。

局限性

纯文本模型。 不支持图片、音频或视频输入。多模态任务仍需使用Claude、GPT或Gemini。
编程分数系自报。 94.6%-of-Opus的说法以Claude Code作为评估框架，独立验证尚未完成。
存储需求高。 完整BF16模型需要约1.49TB存储空间——自托管并不简单。
GLM-5.1权重尚未发布。 目前仅GLM-5为开放权重。

各模型适用场景

选择GLM-5.1，当你：

需要以低成本获得前沿级别的编程性能
开放权重/自托管对你的部署至关重要
正在基于中国云基础设施（华为昇腾）构建应用
预算是首要约束且DeepSeek无法满足你的需求

选择Claude Opus 4.6，当你：

追求全任务最强能力
需要最佳推理性能（GPQA 91.3%、HLE 53.1%、AIME 99.8%）
智能体工作流和复杂多步骤任务是你的核心场景
需要多模态能力

选择GPT-5.2，当你：

完美的数学分数至关重要（AIME 100%）
你在OpenAI生态系统中
需要强大的多模态和工具调用能力

选择DeepSeek V3.2，当你：

成本效率是首要考量（每百万tokens $0.27/$1.10）
需要强编程能力的开源模型（SWE-bench 73.1%）
想要最便宜的接近前沿性能的选项

选择Qwen 3.5，当你：

需要最佳开源LiveCodeBench表现（83.6%）
开放权重下77.8%的SWE-bench已满足需求
在开放模型中需要强劲的GPQA Diamond成绩（88.4%）

总结

GLM-5.1是一个真正接近前沿水平的模型。以Claude Opus 4.6编程性能的94.6%、77.8%的SWE-bench Verified成绩，以及每百万tokens $1.00/$3.20的定价，它提供了极具竞争力的价值主张——尤其作为一个开放权重模型。

更深层的意义在于GLM-5.1所代表的：一家中国实验室在自主硬件上训练出达到前沿水平的AI，以开放权重形式发布，并以激进的价格推向市场。最佳闭源模型（Claude Opus 4.6、GPT-5.2）与最佳开放模型（GLM-5.1、Qwen 3.5、DeepSeek）之间的差距正在持续缩小。

对开发者而言，这意味着更多选择，更低成本。对整个行业而言，这意味着前沿赛道日益拥挤——而这对所有人都是好事。

GLM-5.1是什么？

5.1的新特性

基准测试对比

推理与知识

编程能力

人类偏好（Chatbot Arena）

价格对比

GLM-5.1的核心优势

1. 前沿规模的开放权重

2. 无需英伟达硬件

3. 激进的后训练优化

4. 降低幻觉率

局限性

各模型适用场景

总结

相关文章

PixVerse V6 正式发布：摄像机控制、原生音频与多镜头视频生成

Claude Mythos（Opus 5）泄露：我们目前所知道的一切

Suno vs MiniMax Music vs Google Lyria 3：AI音乐生成对比评测

Claude Opus 4.6 与 Sonnet 4.6：你需要了解的一切

WaveSpeedAI vs Media.io 水印去除工具：哪个更胜一筹？

再见Sora：2026年制作AI视频的5大最佳Sora替代方案