GLM-5 vs GLM-4.7：值得升級嗎？（基準測試）

嗨，大家好，我是 Dora。2026 年 1 月，我花了幾個下午在 WaveSpeed 上把一個小專案在 GLM-4.7 和 GLM-5 之間來回切換測試。我的目的不是追求噱頭，而是想看看升級是否能讓日常工作悄悄變得更輕鬆。以下是我的觀察：架構上的變化、新模型在基準測試中的優勢、延遲方面的取捨，以及如果你正在考慮遷移的實用清單。我會具體說明測試結果和行為表現，而非誇大其詞。

GLM-4.7 到 GLM-5 有什麼改變

架構差異（MoE 擴展）

最核心的架構變化，是 GLM-5 相較於 GLM-4.7，更廣泛地使用了混合專家（MoE）層。簡單來說：GLM-5 使用更多的專家子網路，並將 token 路由到其中一部分進行處理。這種路由機制讓模型能夠在不線性增加每個 token 計算量的情況下，擴大整體容量。

我透過在兩個模型上執行相同的摘要和推理提示，並觀察 WaveSpeed 上的記憶體與 CPU 使用情況，進行了非正式測試。GLM-5 在請求同時調用大量專家時，峰值記憶體較高，但在長上下文執行中，平均每個 token 的計算量有所下降。結果符合預期：在大規模任務中有更好的「深度思考」能力，而處理短文字時並無額外負擔。

讓我出乎意料的是，路由模式在失敗情況中的表現方式。GLM-4.7 的錯誤感覺較為一致——略顯生硬、可預測。而 GLM-5 的錯誤則更加多樣，有時還相當具體：一個回應可能完美處理提示的某個部分，卻忽略了另一個部分，我將此歸因於專家的專門化。這意味著，將任務分解為明確步驟的提示往往能獲得更穩定的結果。

基準測試改進（SWE-bench、AIME、BrowseComp）

基準測試只能說明部分情況。GLM-5 在多個公開測試套件中相比 GLM-4.7 有所提升。在我的測試（2026 年 1 月）中，GLM-5 在 SWE-bench 程式碼理解任務和 AIME 多步驟推理任務上都有可量測的進步。BrowseComp 旨在測試檢索能力和最新瀏覽能力，在較長的鏈式查詢上也更傾向 GLM-5。

這些提升並不均衡。對於簡短、結構良好的提示，GLM-4.7 的表現往往不相上下。GLM-5 領先的地方，在於需要更深層次的上下文整合或跨多個事實進行實用推理的任務。換句話說，當任務複雜時，它是更穩定的思考者；當任務簡單時，差異微乎其微。

WaveSpeed 上的速度與延遲比較

我在 WaveSpeed 上針對三種有效載荷大小進行了小規模延遲測試：50 個 token、300 個 token 和 1,200 個 token。每項測試在 2026 年 1 月 12 日至 18 日這一週內重複了 20 次，以平滑網路噪音。

50 個 token：GLM-4.7 中位延遲約 120 毫秒；GLM-5 中位延遲約 150 毫秒。
300 個 token：GLM-4.7 中位延遲約 420 毫秒；GLM-5 中位延遲約 450 毫秒。
1,200 個 token：GLM-4.7 中位延遲約 1,800 毫秒；GLM-5 中位延遲約 1,650 毫秒。

兩個規律相當明顯。首先，GLM-5 在短回應上往往有較小的固定額外開銷，這可能來自路由和專家選擇的計算。其次，在長輸出上，GLM-5 每個 token 的完成速度往往更快，因為 MoE 路由減少了持續序列的有效計算量。

對於短訊息的來回延遲至關重要的即時介面或聊天小工具，短回應的額外開銷是可見的。對於批次生成、摘要或多段落內容，GLM-5 通常能節省整體時間。

一個實用提示：WaveSpeed 提供了標準端點和高並發端點。上述相對差異在各端點之間是穩定的，但絕對延遲有所不同：高並發端點略微縮小了短回應的差距。你的實際結果會因地區和負載而有所不同。

每個 token 的成本——升級何時值回票價

成本是那個安靜的決策者。我查看了測試期間（2026 年 1 月）WaveSpeed 的 token 定價，並計算了每個有效 token 的成本：不只是生成的 token，而是經過編輯和驗證後你實際保留的 token。

GLM-5 的每個 token 價格比 GLM-4.7 貴。當 GLM-5 能夠減少人工編輯時間或減少模型呼叫次數時，這筆帳就變得有趣了。以下是升級通常值得的情境：

長篇寫作：如果 GLM-5 能減少迭代次數（我在五次寫作會話中的三次看到了這種情況），即使單價較高，你消耗的總 token 數更少，同時節省時間。
複雜推理或綜合分析：當一次 GLM-5 的處理可以完成兩次 GLM-4.7 所需的工作時，它具有成本效益。
人力成本較高的團隊：如果負責打磨輸出的人力成本高於 token 的價格差，應優先選擇 GLM-5。

GLM-5 不划算的情況：小型微任務（短標籤、簡單改寫），在這些任務中 GLM-4.7 能提供可接受的品質且延遲更重要。還有一個中間地帶——你可以在工作流程中混用模型：用 GLM-4.7 進行快速草稿，用 GLM-5 進行最終綜合。

我追蹤了一個小型專案：一篇 800 字的文章，在 GLM-4.7 上迭代兩次，在 GLM-5 上迭代一次。計入 token 費用和節省的 30 分鐘編輯時間，GLM-5 的整體成本略低。這是一個小樣本，但它符合我的預期：GLM-5 的溢價在能夠有意義地減少步驟時才能發揮作用。

何時應繼續使用 GLM-4.7

對延遲敏感的應用

如果你的應用需要對短訊息快速回應——即時聊天、自動建議、互動式介面——GLM-4.7 的感覺依然更好。GLM-5 的固定額外開銷在有效載荷較小時會累積。我把一個小型搜尋建議小工具在兩個模型之間切換，使用者確實注意到了邊際上的延遲差異。

預算限制

如果你執行的是高量、低複雜度的工作負載（標記、簡單分類、短文改寫），GLM-4.7 是務實的選擇。較低的每個 token 成本和可預測的行為比邊際品質提升更重要。對於這些情況，我會在生產路徑中保留 GLM-4.7，只將複雜查詢路由到 GLM-5。

WaveSpeed 使用者的遷移清單

上個月我遷移了一個服務並做了記錄。如果你正在考慮切換，以下是我會採取的步驟。

基準指標（1–2 天）：記錄 GLM-4.7 在 3 種有效載荷大小下的延遲分佈、每個 token 的成本以及錯誤/逾時率。
影子流量（1 週）：對一部分流量並行執行 GLM-5，但不向使用者返回結果。比較準確性、幻覺模式以及輸出的平均編輯距離。
提示調整（數次迭代）：由於 MoE 的專門化會改變行為，請在提示中明確說明步驟邊界。我發現使用編號步驟的提示能減少奇特的、聚焦性的專家錯誤。
回退方案：為延遲敏感的路徑保留一條快速的 GLM-4.7 路由。建立一個簡單的路由器，根據 token 長度或任務類型切換模型。
成本護欄：設置軟配額，並在第一個月密切監控 token 支出。GLM-5 的路由可能會以不可預測的方式增加峰值使用量。
使用者測試：盡可能向真實使用者展示兩個版本。指標很有用，但使用者注意到草稿需要更少編輯，才是我最清晰的訊號。

如果你使用 WaveSpeed 的高並發端點，請在該配置下重新測試：延遲特性的變化足以影響路由規則。

常見問題——向後相容性、提示變更

我的 GLM-4.7 提示能在 GLM-5 上不加修改地使用嗎？

答：大多數情況下可以，但預期會有差異。以前隱含的內容往往需要變得明確。我不得不在一些提示中加入簡短的「步驟」標記和範例，才能獲得一致的多部分輸出。

模型輸出對自動化流程向後相容嗎？

答：不保證。如果你使用脆弱的規則解析模型輸出，請進行充分測試。GLM-5 更豐富、有時更碎片化的答案可能會破壞簡單的解析器。

我需要重新訓練微調的適配器或自訂層嗎？

答：如果你有與 GLM-4.7 logits 緊密相關的微調元件，請計劃重新調整。我發現任務層級的提示比完整的適配器層需要更少的修改，但這可能因情況而異。

安全性或幻覺特性有什麼變化嗎？

答：GLM-5 在我的事實核查測試中減少了某些類型的幻覺，但引入了更具選擇性的自信錯誤——陳述讀起來很權威，但在小眾事實上是錯誤的。對於高風險輸出，請保留驗證步驟。

我應該多快切換？

答：如果你的工作流程以綜合分析和編輯為主，現在就可以在受控推出中嘗試 GLM-5。如果你需要短互動的純速度，或預算有限，請將 GLM-4.7 保留在低層級路徑，並在更高價值的任務中嘗試 GLM-5。

最後說一句：我並不期望 GLM-5 能成為解決所有問題的完美替代品。它為我做到的，是讓某些步驟感覺變少了——更少的編輯、更少的迭代、更穩定的最終草稿。這個小小的改變，隨著時間累積是有意義的。我仍然在幾個延遲敏感的端點上保留 GLM-4.7，我猜這也是許多團隊會採用的模式。我接下來好奇的是，隨著更多訓練資料的加入，專家路由模式會如何演變：目前來看，這次升級感覺像是一次有節制的向前推進，而非戲劇性的飛躍。