← 部落格

GLM-5 vs GLM-4.7:值得升級嗎?(基準測試)

GLM-5 與 GLM-4.7 全面比較:推理能力、程式碼生成、速度、成本,以及升級對您的工作流程是否真正有意義。

2 min read
GLM-5 vs GLM-4.7:值得升級嗎?(基準測試)

嗨,大家好,我是 Dora。2026 年 1 月,我花了幾個下午在 WaveSpeed 上把一個小專案在 GLM-4.7GLM-5 之間來回切換測試。我的目的不是追求噱頭,而是想看看升級是否能讓日常工作悄悄變得更輕鬆。以下是我的觀察:架構上的變化、新模型在基準測試中的優勢、延遲方面的取捨,以及如果你正在考慮遷移的實用清單。我會具體說明測試結果和行為表現,而非誇大其詞。

GLM-4.7 到 GLM-5 有什麼改變

架構差異(MoE 擴展)

最核心的架構變化,是​ GLM-5 ​相較於 ​GLM-4.7​,更廣泛地使用了混合專家(MoE)層。簡單來說:GLM-5 使用更多的專家子網路,並將 token 路由到其中一部分進行處理。這種路由機制讓模型能夠在不線性增加每個 token 計算量的情況下,擴大整體容量。

我透過在兩個模型上執行相同的摘要和推理提示,並觀察 WaveSpeed 上的記憶體與 CPU 使用情況,進行了非正式測試。GLM-5 在請求同時調用大量專家時,峰值記憶體較高,但在長上下文執行中,平均每個 token 的計算量有所下降。結果符合預期:在大規模任務中有更好的「深度思考」能力,而處理短文字時並無額外負擔。

讓我出乎意料的是,路由模式在失敗情況中的表現方式。GLM-4.7 的錯誤感覺較為一致——略顯生硬、可預測。而 GLM-5 的錯誤則更加多樣,有時還相當具體:一個回應可能完美處理提示的某個部分,卻忽略了另一個部分,我將此歸因於專家的專門化。這意味著,將任務分解為明確步驟的提示往往能獲得更穩定的結果。

基準測試改進(SWE-bench、AIME、BrowseComp)

基準測試只能說明部分情況。GLM-5 在多個公開測試套件中相比 GLM-4.7 有所提升。在我的測試(2026 年 1 月)中,GLM-5 在 SWE-bench 程式碼理解任務和 AIME 多步驟推理任務上都有可量測的進步。BrowseComp 旨在測試檢索能力和最新瀏覽能力,在較長的鏈式查詢上也更傾向 GLM-5。

這些提升並不均衡。對於簡短、結構良好的提示,GLM-4.7 的表現往往不相上下。GLM-5 領先的地方,在於需要更深層次的上下文整合或跨多個事實進行實用推理的任務。換句話說,當任務複雜時,它是更穩定的思考者;當任務簡單時,差異微乎其微。

WaveSpeed 上的速度與延遲比較

在 WaveSpeed 上針對三種有效載荷大小進行了小規模延遲測試:50 個 token、300 個 token 和 1,200 個 token。每項測試在 2026 年 1 月 12 日至 18 日這一週內重複了 20 次,以平滑網路噪音。

  • 50 個 token:GLM-4.7 中位延遲約 120 毫秒;GLM-5 中位延遲約 150 毫秒。
  • 300 個 token:GLM-4.7 中位延遲約 420 毫秒;GLM-5 中位延遲約 450 毫秒。
  • 1,200 個 token:GLM-4.7 中位延遲約 1,800 毫秒;GLM-5 中位延遲約 1,650 毫秒。

兩個規律相當明顯。首先,GLM-5 在短回應上往往有較小的固定額外開銷,這可能來自路由和專家選擇的計算。其次,在長輸出上,GLM-5 每個 token 的完成速度往往更快,因為 MoE 路由減少了持續序列的有效計算量。

對於短訊息的來回延遲至關重要的即時介面或聊天小工具,短回應的額外開銷是可見的。對於批次生成、摘要或多段落內容,GLM-5 通常能節省整體時間。

一個實用提示:WaveSpeed 提供了標準端點和高並發端點。上述相對差異在各端點之間是穩定的,但絕對延遲有所不同:高並發端點略微縮小了短回應的差距。你的實際結果會因地區和負載而有所不同。

每個 token 的成本——升級何時值回票價

成本是那個安靜的決策者。我查看了測試期間(2026 年 1 月)WaveSpeed 的 token 定價,並計算了每個有效 token 的成本:不只是生成的 token,而是經過編輯和驗證後你實際保留的 token。

GLM-5 的每個 token 價格比 GLM-4.7 貴。當 GLM-5 能夠減少人工編輯時間或減少模型呼叫次數時,這筆帳就變得有趣了。以下是升級通常值得的情境:

  • 長篇寫作:如果 GLM-5 能減少迭代次數(我在五次寫作會話中的三次看到了這種情況),即使單價較高,你消耗的總 token 數更少,同時節省時間。
  • 複雜推理或綜合分析:當一次 GLM-5 的處理可以完成兩次 GLM-4.7 所需的工作時,它具有成本效益。
  • 人力成本較高的團隊:如果負責打磨輸出的人力成本高於 token 的價格差,應優先選擇 GLM-5。

GLM-5 不划算的情況:小型微任務(短標籤、簡單改寫),在這些任務中 GLM-4.7 能提供可接受的品質且延遲更重要。還有一個中間地帶——你可以在工作流程中混用模型:用 GLM-4.7 進行快速草稿,用 GLM-5 進行最終綜合。

我追蹤了一個小型專案:一篇 800 字的文章,在 GLM-4.7 上迭代兩次,在 GLM-5 上迭代一次。計入 token 費用和節省的 30 分鐘編輯時間,GLM-5 的整體成本略低。這是一個小樣本,但它符合我的預期:GLM-5 的溢價在能夠有意義地減少步驟時才能發揮作用。

何時應繼續使用 GLM-4.7

對延遲敏感的應用

如果你的應用需要對短訊息快速回應——即時聊天、自動建議、互動式介面——GLM-4.7 的感覺依然更好。GLM-5 的固定額外開銷在有效載荷較小時會累積。我把一個小型搜尋建議小工具在兩個模型之間切換,使用者確實注意到了邊際上的延遲差異。

預算限制

如果你執行的是高量、低複雜度的工作負載(標記、簡單分類、短文改寫),GLM-4.7 是務實的選擇。較低的每個 token 成本和可預測的行為比邊際品質提升更重要。對於這些情況,我會在生產路徑中保留 GLM-4.7,只將複雜查詢路由到 GLM-5。

WaveSpeed 使用者的遷移清單

上個月我遷移了一個服務並做了記錄。如果你正在考慮切換,以下是我會採取的步驟。

  1. 基準指標(1–2 天):記錄 GLM-4.7 在 3 種有效載荷大小下的延遲分佈、每個 token 的成本以及錯誤/逾時率。
  2. 影子流量(1 週):對一部分流量並行執行 GLM-5,但不向使用者返回結果。比較準確性、幻覺模式以及輸出的平均編輯距離。
  3. 提示調整(數次迭代):由於 MoE 的專門化會改變行為,請在提示中明確說明步驟邊界。我發現使用編號步驟的提示能減少奇特的、聚焦性的專家錯誤。
  4. 回退方案:為延遲敏感的路徑保留一條快速的 GLM-4.7 路由。建立一個簡單的路由器,根據 token 長度或任務類型切換模型。
  5. 成本護欄:設置軟配額,並在第一個月密切監控 token 支出。GLM-5 的路由可能會以不可預測的方式增加峰值使用量。
  6. 使用者測試:盡可能向真實使用者展示兩個版本。指標很有用,但使用者注意到草稿需要更少編輯,才是我最清晰的訊號。

如果你使用 WaveSpeed 的高並發端點,請在該配置下重新測試:延遲特性的變化足以影響路由規則。

常見問題——向後相容性、提示變更

我的 GLM-4.7 提示能在 GLM-5 上不加修改地使用嗎?

答:大多數情況下可以,但預期會有差異。以前隱含的內容往往需要變得明確。我不得不在一些提示中加入簡短的「步驟」標記和範例,才能獲得一致的多部分輸出。

模型輸出對自動化流程向後相容嗎?

答:不保證。如果你使用脆弱的規則解析模型輸出,請進行充分測試。GLM-5 更豐富、有時更碎片化的答案可能會破壞簡單的解析器。

我需要重新訓練微調的適配器或自訂層嗎?

答:如果你有與 GLM-4.7 logits 緊密相關的微調元件,請計劃重新調整。我發現任務層級的提示比完整的適配器層需要更少的修改,但這可能因情況而異。

安全性或幻覺特性有什麼變化嗎?

答:GLM-5 在我的事實核查測試中減少了某些類型的幻覺,但引入了更具選擇性的自信錯誤——陳述讀起來很權威,但在小眾事實上是錯誤的。對於高風險輸出,請保留驗證步驟。

我應該多快切換?

答:如果你的工作流程以綜合分析和編輯為主,現在就可以在受控推出中嘗試 GLM-5。如果你需要短互動的純速度,或預算有限,請將 GLM-4.7 保留在低層級路徑,並在更高價值的任務中嘗試 GLM-5。

最後說一句:​我並不期望 GLM-5 能成為解決所有問題的完美替代品。它為我做到的,是讓某些步驟感覺變少了——更少的編輯、更少的迭代、更穩定的最終草稿。這個小小的改變,隨著時間累積是有意義的。我仍然在幾個延遲敏感的端點上保留 GLM-4.7,我猜這也是許多團隊會採用的模式。我接下來好奇的是,隨著更多訓練資料的加入,專家路由模式會如何演變:目前來看,這次升級感覺像是一次有節制的向前推進,而非戲劇性的飛躍。