GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智譜AI最新模型的實力評測

智譜AI於2026年3月27日正式發布 GLM-5.1，其亮眼數據引發廣泛關注。這家中國AI實驗室於今年1月以313億美元估值在香港聯交所掛牌上市，聲稱其最新模型的程式設計能力達到 Claude Opus 4.6的94.6%，且採用開放權重，並完全在非Nvidia硬體上完成訓練。

以下是GLM-5.1與2026年所有主要前沿模型的全面比較。

GLM-5.1 是什麼？

GLM-5.1是GLM-5的增量升級版本，透過增強的後訓練技術，專注於提升程式設計能力與推理能力。基礎架構與GLM-5共用：

規格	詳情
總參數量	744B（混合專家架構）
活躍參數量	每個token 40-44B
專家架構	256個專家，每個token啟用8個
上下文視窗	200K tokens
最大輸出	131,072 tokens
訓練資料	28.5兆tokens
訓練硬體	100,000塊華為昇騰910B晶片
授權	MIT（開放權重）

訓練基礎設施的故事意義重大：GLM-5與5.1完全在華為昇騰晶片上訓練完成，未使用任何Nvidia GPU。鑑於美國對中國AI晶片的出口管制，這對中國AI自主化而言是一個重要里程碑。

5.1版本有哪些新變化

GLM-5.1並非全新架構，而是針對程式設計能力的GLM-5後訓練精煉版本：

程式設計基準分數從 35.4（GLM-5）提升至 45.3（GLM-5.1），提升幅度達28%
達到 Claude Opus 4.6程式設計分數的94.6%（45.3 vs 47.9）
透過漸進式對齊技術增強：多任務SFT → 推理RL → 代理RL → 通用RL → 在策略跨階段蒸餾

基準測試比較

以下是GLM-5/5.1與所有具備可用基準測試資料的前沿模型的比較：

推理與知識

模型	GPQA Diamond	AIME 2025	MMLU	HLE
GPT-5.2（OpenAI）	92.4%	100%	~90%	N/A
Claude Opus 4.6（Anthropic）	91.3%	99.8%	91.1%	53.1%
Qwen 3.5（阿里巴巴）	88.4%	N/A	88.5%	N/A
GLM-5（智譜AI）	86.0%	92.7%	88-92%	30.5
DeepSeek V3.2	N/A	89.3%	~88.5%	N/A
Gemini 2.5 Pro（Google）	84.0%	86.7%	89.8%	18.8%
Llama 4 Maverick（Meta）	84.0%	83.0%	85.5%	N/A

GLM-5在推理方面表現穩健，尤其在AIME 2025上取得92.7%，優於DeepSeek、Gemini與Llama。但在GPQA Diamond與人類最終考試（Humanity’s Last Exam）上仍落後於Claude Opus 4.6和GPT-5.2。

程式設計

模型	SWE-bench Verified	LiveCodeBench	程式設計分數
Claude Opus 4.6	80.8%	N/A	47.9
GPT-5.2	80.0%	N/A	N/A
GLM-5.1	77.8%	52.0%	45.3
Qwen 3.5	76.4%	83.6%	N/A
DeepSeek V3.2	73.1%	74.1%	N/A
Gemini 2.5 Pro	63.8%	70.4%	N/A
Llama 4 Maverick	N/A	39.7-70.4%	N/A

GLM-5.1的程式設計能力提升是其最大亮點。以 SWE-bench Verified 77.8% 的成績，可與頂尖閉源模型競爭，僅落後Claude Opus 4.6（80.8%）和GPT-5.2（80.0%）3個百分點。對於開放權重模型而言，這一成績相當出色。

人類偏好（Chatbot Arena）

模型	Arena ELO	排名
Claude Opus 4.6	~1503	#1
GLM-5	1451	頂尖

GLM-5在LMArena的文字競技場與程式設計競技場中，均位列開放權重模型第一。即便整體排名落後於Opus 4.6，在人類偏好評估方面仍有亮眼表現。

定價比較

GLM-5.1最強的賣點之一是成本優勢。

模型	輸入（每100萬tokens）	輸出（每100萬tokens）
GLM-5.1	$1.00	$3.20
DeepSeek V3.2	$0.27	$1.10
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.2	$3.00	$12.00
Claude Opus 4.6	$15.00	$75.00
Gemini 2.5 Pro	$1.25	$10.00

GLM-5.1以遠低於Claude Opus 4.6或GPT-5.2的成本，提供接近前沿的性能。僅有DeepSeek在純定價上更具競爭力。

智譜AI同時提供 GLM程式設計方案 訂閱服務：

輕量版：每月$3，包含120次提示
專業版：每月$15，包含600次提示

對比Claude Max每月$100-200的費用，優勢顯而易見。

GLM-5.1的突出之處

1. 前沿規模的開放權重

GLM-5是首個在Artificial Analysis智能指數上突破50分的開放權重模型。模型權重以MIT授權在HuggingFace開放發布（zai-org/GLM-5），支援透過vLLM、SGLang和KTransformers部署。GLM-5.1的權重已承諾發布，但尚未正式放出。

2. 無需Nvidia

在100,000塊華為昇騰910B晶片上完成訓練，GLM-5/5.1證明了前沿AI訓練無需Nvidia硬體即可實現。這一成就的地緣政治意義遠超其技術本身。

3. 積極的後訓練策略

GLM-5到5.1，28%的程式設計能力提升完全來自後訓練最佳化——相同的基礎模型，更好的對齊效果。智譜的「漸進式對齊」流程（多任務SFT → 多階段RL → 跨階段蒸餾）正在產生實質性的進步。

4. 幻覺現象減少

GLM-5在AA-Omniscience指數上相比GLM-4.7提升了35個百分點，token效率更高（執行相似任務輸出約1.1億tokens，而非約1.7億）。說得更少，做得更準確。

局限性

僅支援文字。 不支援圖像、音訊或視訊輸入。多模態任務仍需使用Claude、GPT或Gemini。
程式設計分數為自行申報。 94.6%的Opus聲稱使用Claude Code作為評估框架，獨立驗證尚待進行。
儲存空間需求。 完整BF16模型需要約1.49TB儲存空間，自託管並非易事。
GLM-5.1權重尚未發布。 目前僅GLM-5提供開放權重。

如何選擇適合的模型

選擇GLM-5.1的情況：

需要以低成本獲得前沿級別的程式設計能力
開放權重／自託管對您的部署至關重要
在中國雲端基礎設施（華為昇騰）上進行開發
預算是首要限制條件，且DeepSeek無法滿足您的需求

選擇Claude Opus 4.6的情況：

追求跨所有任務的最強能力
需要最佳推理能力（GPQA 91.3%，HLE 53.1%，AIME 99.8%）
代理工作流程與複雜多步驟任務是您的使用場景
需要多模態能力

選擇GPT-5.2的情況：

完美的數學分數至關重要（AIME 100%）
您在OpenAI生態系統中工作
需要強大的多模態與工具使用能力

選擇DeepSeek V3.2的情況：

成本效益是首要考量（每百萬tokens $0.27/$1.10）
開源且具備強勁程式設計能力（SWE-bench 73.1%）
尋求最低成本的接近前沿選項

選擇Qwen 3.5的情況：

需要最佳的開源LiveCodeBench表現（83.6%）
開放權重的SWE-bench 76.4%已足夠
在開放模型中具備強勁的GPQA Diamond成績（88.4%）

總結

GLM-5.1是一個真正接近前沿的模型。以達到Claude Opus 4.6程式設計能力94.6%的成績、77.8%的SWE-bench Verified分數，以及每百萬tokens $1.00/$3.20的定價，它提供了極具說服力的性價比——尤其作為開放權重模型。

更重要的意義在於GLM-5.1所代表的：一家中國實驗室在國產硬體上打造出前沿競爭力的AI，以開放權重形式發布，並採取積極進取的定價策略。最佳閉源模型（Claude Opus 4.6、GPT-5.2）與最佳開放模型（GLM-5.1、Qwen 3.5、DeepSeek）之間的差距正在持續縮小。

對開發者而言，這意味著以更低的成本擁有更多選擇。對整個行業而言，這意味著前沿賽道越來越擁擠——而這對所有人都是好事。

GLM-5.1 是什麼？

5.1版本有哪些新變化

基準測試比較

推理與知識

程式設計

人類偏好（Chatbot Arena）

定價比較

GLM-5.1的突出之處

1. 前沿規模的開放權重

2. 無需Nvidia

3. 積極的後訓練策略

4. 幻覺現象減少

局限性

如何選擇適合的模型

總結

相關文章

PixVerse V6 正式發布：鏡頭控制、原生音訊與多鏡頭影片生成

Claude Mythos（Opus 5）洩露：目前我們所知道的一切

Suno vs MiniMax Music vs Google Lyria 3：AI音樂生成全面比較

Claude Opus 4.6 與 Sonnet 4.6：你需要知道的一切

WaveSpeedAI vs Media.io 去浮水印工具：哪個才是真正的贏家？

再見Sora：2026年製作AI影片的5大最佳Sora替代方案