← 部落格

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek:智譜AI最新模型的實力評測

智譜AI的GLM-5.1宣稱達到Claude Opus 4.6程式編寫效能的94.6%——完全基於華為晶片訓練並開放權重。以下是其與2026年各主流大型語言模型的全面對比。

3 min read

智譜AI於2026年3月27日正式發布 GLM-5.1,其亮眼數據引發廣泛關注。這家中國AI實驗室於今年1月以313億美元估值在香港聯交所掛牌上市,聲稱其最新模型的程式設計能力達到 Claude Opus 4.6的94.6%,且採用開放權重,並完全在非Nvidia硬體上完成訓練。

以下是GLM-5.1與2026年所有主要前沿模型的全面比較。

GLM-5.1 是什麼?

GLM-5.1是GLM-5的增量升級版本,透過增強的後訓練技術,專注於提升程式設計能力與推理能力。基礎架構與GLM-5共用:

規格詳情
總參數量744B(混合專家架構)
活躍參數量每個token 40-44B
專家架構256個專家,每個token啟用8個
上下文視窗200K tokens
最大輸出131,072 tokens
訓練資料28.5兆tokens
訓練硬體100,000塊華為昇騰910B晶片
授權MIT(開放權重)

訓練基礎設施的故事意義重大:GLM-5與5.1完全在華為昇騰晶片上訓練完成,未使用任何Nvidia GPU。鑑於美國對中國AI晶片的出口管制,這對中國AI自主化而言是一個重要里程碑。

5.1版本有哪些新變化

GLM-5.1並非全新架構,而是針對程式設計能力的GLM-5後訓練精煉版本:

  • 程式設計基準分數從 35.4(GLM-5)提升至 45.3(GLM-5.1),提升幅度達28%
  • 達到 Claude Opus 4.6程式設計分數的94.6%(45.3 vs 47.9)
  • 透過漸進式對齊技術增強:多任務SFT → 推理RL → 代理RL → 通用RL → 在策略跨階段蒸餾

基準測試比較

以下是GLM-5/5.1與所有具備可用基準測試資料的前沿模型的比較:

推理與知識

模型GPQA DiamondAIME 2025MMLUHLE
GPT-5.2(OpenAI)92.4%100%~90%N/A
Claude Opus 4.6(Anthropic)91.3%99.8%91.1%53.1%
Qwen 3.5(阿里巴巴)88.4%N/A88.5%N/A
GLM-5(智譜AI)86.0%92.7%88-92%30.5
DeepSeek V3.2N/A89.3%~88.5%N/A
Gemini 2.5 Pro(Google)84.0%86.7%89.8%18.8%
Llama 4 Maverick(Meta)84.0%83.0%85.5%N/A

GLM-5在推理方面表現穩健,尤其在AIME 2025上取得92.7%,優於DeepSeek、Gemini與Llama。但在GPQA Diamond與人類最終考試(Humanity’s Last Exam)上仍落後於Claude Opus 4.6和GPT-5.2。

程式設計

模型SWE-bench VerifiedLiveCodeBench程式設計分數
Claude Opus 4.680.8%N/A47.9
GPT-5.280.0%N/AN/A
GLM-5.177.8%52.0%45.3
Qwen 3.576.4%83.6%N/A
DeepSeek V3.273.1%74.1%N/A
Gemini 2.5 Pro63.8%70.4%N/A
Llama 4 MaverickN/A39.7-70.4%N/A

GLM-5.1的程式設計能力提升是其最大亮點。以 SWE-bench Verified 77.8% 的成績,可與頂尖閉源模型競爭,僅落後Claude Opus 4.6(80.8%)和GPT-5.2(80.0%)3個百分點。對於開放權重模型而言,這一成績相當出色。

人類偏好(Chatbot Arena)

模型Arena ELO排名
Claude Opus 4.6~1503#1
GLM-51451頂尖

GLM-5在LMArena的文字競技場與程式設計競技場中,均位列開放權重模型第一。即便整體排名落後於Opus 4.6,在人類偏好評估方面仍有亮眼表現。

定價比較

GLM-5.1最強的賣點之一是成本優勢。

模型輸入(每100萬tokens)輸出(每100萬tokens)
GLM-5.1$1.00$3.20
DeepSeek V3.2$0.27$1.10
Claude Sonnet 4.6$3.00$15.00
GPT-5.2$3.00$12.00
Claude Opus 4.6$15.00$75.00
Gemini 2.5 Pro$1.25$10.00

GLM-5.1以遠低於Claude Opus 4.6或GPT-5.2的成本,提供接近前沿的性能。僅有DeepSeek在純定價上更具競爭力。

智譜AI同時提供 GLM程式設計方案 訂閱服務:

  • 輕量版:每月$3,包含120次提示
  • 專業版:每月$15,包含600次提示

對比Claude Max每月$100-200的費用,優勢顯而易見。

GLM-5.1的突出之處

1. 前沿規模的開放權重

GLM-5是首個在Artificial Analysis智能指數上突破50分的開放權重模型。模型權重以MIT授權在HuggingFace開放發布(zai-org/GLM-5),支援透過vLLM、SGLang和KTransformers部署。GLM-5.1的權重已承諾發布,但尚未正式放出。

2. 無需Nvidia

在100,000塊華為昇騰910B晶片上完成訓練,GLM-5/5.1證明了前沿AI訓練無需Nvidia硬體即可實現。這一成就的地緣政治意義遠超其技術本身。

3. 積極的後訓練策略

GLM-5到5.1,28%的程式設計能力提升完全來自後訓練最佳化——相同的基礎模型,更好的對齊效果。智譜的「漸進式對齊」流程(多任務SFT → 多階段RL → 跨階段蒸餾)正在產生實質性的進步。

4. 幻覺現象減少

GLM-5在AA-Omniscience指數上相比GLM-4.7提升了35個百分點,token效率更高(執行相似任務輸出約1.1億tokens,而非約1.7億)。說得更少,做得更準確。

局限性

  • 僅支援文字。 不支援圖像、音訊或視訊輸入。多模態任務仍需使用Claude、GPT或Gemini。
  • 程式設計分數為自行申報。 94.6%的Opus聲稱使用Claude Code作為評估框架,獨立驗證尚待進行。
  • 儲存空間需求。 完整BF16模型需要約1.49TB儲存空間,自託管並非易事。
  • GLM-5.1權重尚未發布。 目前僅GLM-5提供開放權重。

如何選擇適合的模型

選擇GLM-5.1的情況:

  • 需要以低成本獲得前沿級別的程式設計能力
  • 開放權重/自託管對您的部署至關重要
  • 在中國雲端基礎設施(華為昇騰)上進行開發
  • 預算是首要限制條件,且DeepSeek無法滿足您的需求

選擇Claude Opus 4.6的情況:

  • 追求跨所有任務的最強能力
  • 需要最佳推理能力(GPQA 91.3%,HLE 53.1%,AIME 99.8%)
  • 代理工作流程與複雜多步驟任務是您的使用場景
  • 需要多模態能力

選擇GPT-5.2的情況:

  • 完美的數學分數至關重要(AIME 100%)
  • 您在OpenAI生態系統中工作
  • 需要強大的多模態與工具使用能力

選擇DeepSeek V3.2的情況:

  • 成本效益是首要考量(每百萬tokens $0.27/$1.10)
  • 開源且具備強勁程式設計能力(SWE-bench 73.1%)
  • 尋求最低成本的接近前沿選項

選擇Qwen 3.5的情況:

  • 需要最佳的開源LiveCodeBench表現(83.6%)
  • 開放權重的SWE-bench 76.4%已足夠
  • 在開放模型中具備強勁的GPQA Diamond成績(88.4%)

總結

GLM-5.1是一個真正接近前沿的模型。以達到Claude Opus 4.6程式設計能力94.6%的成績、77.8%的SWE-bench Verified分數,以及每百萬tokens $1.00/$3.20的定價,它提供了極具說服力的性價比——尤其作為開放權重模型。

更重要的意義在於GLM-5.1所代表的:一家中國實驗室在國產硬體上打造出前沿競爭力的AI,以開放權重形式發布,並採取積極進取的定價策略。最佳閉源模型(Claude Opus 4.6、GPT-5.2)與最佳開放模型(GLM-5.1、Qwen 3.5、DeepSeek)之間的差距正在持續縮小。

對開發者而言,這意味著以更低的成本擁有更多選擇。對整個行業而言,這意味著前沿賽道越來越擁擠——而這對所有人都是好事。