GLM-5.1 vs Claude、GPT、Gemini、DeepSeek:智譜AI最新模型的實力評測
智譜AI的GLM-5.1宣稱達到Claude Opus 4.6程式編寫效能的94.6%——完全基於華為晶片訓練並開放權重。以下是其與2026年各主流大型語言模型的全面對比。
智譜AI於2026年3月27日正式發布 GLM-5.1,其亮眼數據引發廣泛關注。這家中國AI實驗室於今年1月以313億美元估值在香港聯交所掛牌上市,聲稱其最新模型的程式設計能力達到 Claude Opus 4.6的94.6%,且採用開放權重,並完全在非Nvidia硬體上完成訓練。
以下是GLM-5.1與2026年所有主要前沿模型的全面比較。
GLM-5.1 是什麼?
GLM-5.1是GLM-5的增量升級版本,透過增強的後訓練技術,專注於提升程式設計能力與推理能力。基礎架構與GLM-5共用:
| 規格 | 詳情 |
|---|---|
| 總參數量 | 744B(混合專家架構) |
| 活躍參數量 | 每個token 40-44B |
| 專家架構 | 256個專家,每個token啟用8個 |
| 上下文視窗 | 200K tokens |
| 最大輸出 | 131,072 tokens |
| 訓練資料 | 28.5兆tokens |
| 訓練硬體 | 100,000塊華為昇騰910B晶片 |
| 授權 | MIT(開放權重) |
訓練基礎設施的故事意義重大:GLM-5與5.1完全在華為昇騰晶片上訓練完成,未使用任何Nvidia GPU。鑑於美國對中國AI晶片的出口管制,這對中國AI自主化而言是一個重要里程碑。
5.1版本有哪些新變化
GLM-5.1並非全新架構,而是針對程式設計能力的GLM-5後訓練精煉版本:
- 程式設計基準分數從 35.4(GLM-5)提升至 45.3(GLM-5.1),提升幅度達28%
- 達到 Claude Opus 4.6程式設計分數的94.6%(45.3 vs 47.9)
- 透過漸進式對齊技術增強:多任務SFT → 推理RL → 代理RL → 通用RL → 在策略跨階段蒸餾
基準測試比較
以下是GLM-5/5.1與所有具備可用基準測試資料的前沿模型的比較:
推理與知識
| 模型 | GPQA Diamond | AIME 2025 | MMLU | HLE |
|---|---|---|---|---|
| GPT-5.2(OpenAI) | 92.4% | 100% | ~90% | N/A |
| Claude Opus 4.6(Anthropic) | 91.3% | 99.8% | 91.1% | 53.1% |
| Qwen 3.5(阿里巴巴) | 88.4% | N/A | 88.5% | N/A |
| GLM-5(智譜AI) | 86.0% | 92.7% | 88-92% | 30.5 |
| DeepSeek V3.2 | N/A | 89.3% | ~88.5% | N/A |
| Gemini 2.5 Pro(Google) | 84.0% | 86.7% | 89.8% | 18.8% |
| Llama 4 Maverick(Meta) | 84.0% | 83.0% | 85.5% | N/A |
GLM-5在推理方面表現穩健,尤其在AIME 2025上取得92.7%,優於DeepSeek、Gemini與Llama。但在GPQA Diamond與人類最終考試(Humanity’s Last Exam)上仍落後於Claude Opus 4.6和GPT-5.2。
程式設計
| 模型 | SWE-bench Verified | LiveCodeBench | 程式設計分數 |
|---|---|---|---|
| Claude Opus 4.6 | 80.8% | N/A | 47.9 |
| GPT-5.2 | 80.0% | N/A | N/A |
| GLM-5.1 | 77.8% | 52.0% | 45.3 |
| Qwen 3.5 | 76.4% | 83.6% | N/A |
| DeepSeek V3.2 | 73.1% | 74.1% | N/A |
| Gemini 2.5 Pro | 63.8% | 70.4% | N/A |
| Llama 4 Maverick | N/A | 39.7-70.4% | N/A |
GLM-5.1的程式設計能力提升是其最大亮點。以 SWE-bench Verified 77.8% 的成績,可與頂尖閉源模型競爭,僅落後Claude Opus 4.6(80.8%)和GPT-5.2(80.0%)3個百分點。對於開放權重模型而言,這一成績相當出色。
人類偏好(Chatbot Arena)
| 模型 | Arena ELO | 排名 |
|---|---|---|
| Claude Opus 4.6 | ~1503 | #1 |
| GLM-5 | 1451 | 頂尖 |
GLM-5在LMArena的文字競技場與程式設計競技場中,均位列開放權重模型第一。即便整體排名落後於Opus 4.6,在人類偏好評估方面仍有亮眼表現。
定價比較
GLM-5.1最強的賣點之一是成本優勢。
| 模型 | 輸入(每100萬tokens) | 輸出(每100萬tokens) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1以遠低於Claude Opus 4.6或GPT-5.2的成本,提供接近前沿的性能。僅有DeepSeek在純定價上更具競爭力。
智譜AI同時提供 GLM程式設計方案 訂閱服務:
- 輕量版:每月$3,包含120次提示
- 專業版:每月$15,包含600次提示
對比Claude Max每月$100-200的費用,優勢顯而易見。
GLM-5.1的突出之處
1. 前沿規模的開放權重
GLM-5是首個在Artificial Analysis智能指數上突破50分的開放權重模型。模型權重以MIT授權在HuggingFace開放發布(zai-org/GLM-5),支援透過vLLM、SGLang和KTransformers部署。GLM-5.1的權重已承諾發布,但尚未正式放出。
2. 無需Nvidia
在100,000塊華為昇騰910B晶片上完成訓練,GLM-5/5.1證明了前沿AI訓練無需Nvidia硬體即可實現。這一成就的地緣政治意義遠超其技術本身。
3. 積極的後訓練策略
GLM-5到5.1,28%的程式設計能力提升完全來自後訓練最佳化——相同的基礎模型,更好的對齊效果。智譜的「漸進式對齊」流程(多任務SFT → 多階段RL → 跨階段蒸餾)正在產生實質性的進步。
4. 幻覺現象減少
GLM-5在AA-Omniscience指數上相比GLM-4.7提升了35個百分點,token效率更高(執行相似任務輸出約1.1億tokens,而非約1.7億)。說得更少,做得更準確。
局限性
- 僅支援文字。 不支援圖像、音訊或視訊輸入。多模態任務仍需使用Claude、GPT或Gemini。
- 程式設計分數為自行申報。 94.6%的Opus聲稱使用Claude Code作為評估框架,獨立驗證尚待進行。
- 儲存空間需求。 完整BF16模型需要約1.49TB儲存空間,自託管並非易事。
- GLM-5.1權重尚未發布。 目前僅GLM-5提供開放權重。
如何選擇適合的模型
選擇GLM-5.1的情況:
- 需要以低成本獲得前沿級別的程式設計能力
- 開放權重/自託管對您的部署至關重要
- 在中國雲端基礎設施(華為昇騰)上進行開發
- 預算是首要限制條件,且DeepSeek無法滿足您的需求
選擇Claude Opus 4.6的情況:
- 追求跨所有任務的最強能力
- 需要最佳推理能力(GPQA 91.3%,HLE 53.1%,AIME 99.8%)
- 代理工作流程與複雜多步驟任務是您的使用場景
- 需要多模態能力
選擇GPT-5.2的情況:
- 完美的數學分數至關重要(AIME 100%)
- 您在OpenAI生態系統中工作
- 需要強大的多模態與工具使用能力
選擇DeepSeek V3.2的情況:
- 成本效益是首要考量(每百萬tokens $0.27/$1.10)
- 開源且具備強勁程式設計能力(SWE-bench 73.1%)
- 尋求最低成本的接近前沿選項
選擇Qwen 3.5的情況:
- 需要最佳的開源LiveCodeBench表現(83.6%)
- 開放權重的SWE-bench 76.4%已足夠
- 在開放模型中具備強勁的GPQA Diamond成績(88.4%)
總結
GLM-5.1是一個真正接近前沿的模型。以達到Claude Opus 4.6程式設計能力94.6%的成績、77.8%的SWE-bench Verified分數,以及每百萬tokens $1.00/$3.20的定價,它提供了極具說服力的性價比——尤其作為開放權重模型。
更重要的意義在於GLM-5.1所代表的:一家中國實驗室在國產硬體上打造出前沿競爭力的AI,以開放權重形式發布,並採取積極進取的定價策略。最佳閉源模型(Claude Opus 4.6、GPT-5.2)與最佳開放模型(GLM-5.1、Qwen 3.5、DeepSeek)之間的差距正在持續縮小。
對開發者而言,這意味著以更低的成本擁有更多選擇。對整個行業而言,這意味著前沿賽道越來越擁擠——而這對所有人都是好事。



