GLM-5 API 快速上手 WaveSpeed（程式碼範例）

你好，我是 Dora。2026 年 1 月，我在為一個小型內容生成功能選擇模型選項時，無意間發現了 GLM-5。我曾聽說過這個名字——效能不錯、架構合理——但我想要的其實很簡單：能不能把它接入現有的工作流程，而不需要花一週時間做各種配置？這篇文章正是這樣的內容：從拿到憑證，到考慮將其接入圖像或影片流程，對 GLM-5 API 進行一次平靜、實作的探索。我會展示指令、說明我曾經猶豫的地方，並點出我遇到的取捨，讓你自己判斷它是否符合你的工作方式。

前置條件——WaveSpeed 帳號與 API 金鑰

在你寫下任何一行 curl 指令之前，有一個安靜的步驟：帳號和 API 金鑰。我在 WaveSpeed 上完成了設定：流程很直觀，但有兩個小細節需要注意。

首先，取得一個限定在 GLM-5 端點的金鑰。有時高吞吐量模型需要單獨的 token 或角色，使用錯誤的金鑰會給你一個簡短的「找不到模型」錯誤，看起來像是其他問題——這讓我困惑了十分鐘，直到我確認這一點。其次，記下儀表板上列出的地區/端點。部分帳號會將模型對應到特定地區端點，如果你在做影片或互動功能，這對延遲很重要。

我使用的實務清單：

建立 WaveSpeed 帳號並驗證電子郵件。
建立一個標記為開發/測試用途的 API 金鑰。
確認 GLM-5 模型出現在儀表板中，並記下列出的端點地區。
將金鑰放入本地的 .env 檔案，而不是貼入測試腳本（之後摩擦最小）。

就這樣。不需要特殊硬體或 SDK 購買。只需要一個 API 金鑰，以及耐心地確認端點對應。

3 個步驟完成第一個請求（curl + Python + JS）

我喜歡從 curl 請求開始，它很直接，不需要抽象層就能呈現標頭、狀態碼和原始 JSON。之後我用 Python 進行實驗，想要原型化一個小型 UI 時則用 JS。

模型 ID 與端點

GLM-5 API 需要一個模型 ID 和一個端點 URL。在我的測試中，模型 ID 看起來像 glm-5-v1（請在你的儀表板上再次確認：名稱可能因版本而異）。端點是你 POST 的主機：對我來說是帶有地區前綴的。兩者任一填錯都會立即出現 404 或找不到模型的 JSON 錯誤。

我執行的一個最簡 curl 範例（請調整成你的金鑰和端點）：

curl -X POST "https://your-region.api.wavespeed/v1/models/glm-5-v1/generate" \
-H "Authorization: Bearer $WAVESPEED_KEY" \
-H "Content-Type: application/json" \
-d '{"prompt":"Write a short intro about mindful workflows.","max_tokens":120}'

它回傳了一個包含文字和 token 元資料的小型 JSON。簡潔、立即的回饋。

串流與非串流

GLM-5 同時支援串流和非串流回應。我一開始用非串流保持簡單，後來為了一個小型編輯器原型切換到串流。串流能節省感知延遲：文字在生成時就會出現，這對互動性很有幫助。但串流增加了複雜性——連線處理、部分結果，以及你這端需要一些狀態管理。

當我在本地示範中使用串流時（Node.js、EventSource 風格），我注意到兩個行為：

第一個 token 很快到達，感覺很有回應感。
偶爾會有一個帶有小格式問題的部分區塊到達（在句子中間截斷）。處理起來很瑣碎，但值得知道。

如果你重視即時的使用者回饋——聊天 UI、即時助理——就從串流開始。批次生成或簡單腳本則用非串流，更簡單、較少出錯。

關鍵參數：思考模式、temperature、max tokens

有三個參數比其他任何參數都更影響我的體驗：思考模式、temperature 和 max tokens。我在幾個短期實驗中調整了它們。

思考模式

GLM-5 公開了一個「思考模式」參數，它能影響模型對提示的推理方式。可以把它想成一套寬鬆的指令集：輕量模式優先考慮速度和簡潔；重量模式優先考慮深度和多步推理。我在撰寫簡短的行銷文案時使用了更快的模式，在要求模型概述多部分教學時使用了更深度的模式。

我的心得：不要把思考模式當作魔法。它會改變模型的方式，但當你需要多步輸出時，仍然需要建構提示。

Temperature

Temperature 控制隨機性。我用 0.0、0.3 和 0.8 執行了相同的提示。在 0.0 時，輸出一致且安全——適合範本和程式碼生成。在 0.8 時，模型提供了更多創意轉折，有時產生有用的措辭，有時飄向廢話。

我使用的實務規則：生產文字從 0.2–0.4 開始，確定性任務（如 SQL）用 0.0，發想用 0.6–0.8。

Max tokens

Max tokens 限制輸出長度。我發現 GLM-5 在回應中給出可預測的 token 計數。當我把 max_tokens 設得太低時，模型會在思路中間截斷——在撰寫條列式大綱時令人沮喪。不確定時，我會過度分配，然後在客戶端修剪。我使用的一個小啟發式：估計字數 × 1.3 = tokens，再加 10% 緩衝。

錯誤處理——速率限制、找不到模型、逾時

錯誤是你了解平台形態的地方。

速率限制

WaveSpeed 回傳清晰的速率限制標頭和 HTTP 429。在我的原型中，我在從兩台機器同時執行測試時遇到了 429。我透過實作帶抖動的指數退避，並在客戶端排隊請求來處理它。這消除了大多數 429。如果你的應用程式對使用者請求進行排隊，顯示一個友善的「處理中」狀態，而不是顯示錯誤。

找不到模型

這個錯誤常常是假警報。它可能意味著模型 ID 拼錯了、金鑰沒有該模型的權限，或者模型在你的地區不可用。我看到這個錯誤時的清單：

確認模型 ID 與儀表板完全一致。
確認 API 金鑰 具有正確的範圍/角色。
如果可用，嘗試另一個地區端點。

逾時

對於長時間生成或較重的思考模式，我偶爾會看到逾時。我的方法是保守的：為呼叫 GLM-5 API 的特定路由增加伺服器端逾時，並在可以串流時提供進度 UI。如果你能將任務分解成更小的步驟（生成大綱 → 展開各節），你就能降低逾時風險，並獲得更易於管理的失敗情境。

日誌與可觀測性

我記錄成功和失敗回應的請求 ID。這讓之後與支援團隊除錯時容易多了。

成本估算——每個請求的 tokens

成本很重要。我在 2026 年 1 月的四天內進行了一個小實驗，估算一個每次請求生成 400–800 字的內容功能的每請求 token 使用量。

我測量的內容

提示 tokens：通常 40–120，取決於上下文大小。
完成 tokens：對於 600 字的輸出，我看到約 750 tokens（不同模型的分詞方式略有不同）。每個請求的平均總量為 820–900 tokens。

我計算成本的快速方法：

從回應元資料中追蹤提示 + 完成 tokens。
對給定用例的 30 個請求取平均值。
乘以模型的 token 價格（查看你的 WaveSpeed 儀表板以取得目前費率）。

讓我驚訝的事情

系統提示和長對話歷史累積很快。如果你儲存聊天歷史，要積極地修剪它。
開發過程中的重複重試扭曲了我的數字：我建議使用單獨的開發金鑰，並密切關注 token 標頭。

如果你想要一個粗略的數字：對於短文案生成（100–200 字），預計每次請求 150–300 tokens。對於長文（500–800 字），預計 600–900 tokens。你的實際情況會有所不同，所以請用你自己的提示進行測量。

下一步——整合到你的圖像/影片流程

我沒有止步於文字。對我來說顯而易見的問題是：GLM-5 如何融入媒體流程——字幕、場景描述、影片腳本或元資料豐富化。

我嘗試的幾個實務模式

字幕助理：發送簡短的場景描述，請 GLM-5 生成簡潔的字幕。保持提示嚴格，temperature 低，以確保措辭一致。
腳本展開：使用 GLM-5 將條列式大綱展開成短腳本。我將大綱拆分成每場景請求，以避免過長的完成內容，並實現並行生成。
元資料標記：對於剪輯的自動標記，我使用確定性模式和一個小型 JSON schema 提示，讓模型回傳可預測的鍵值對。

整合技巧

如果你包含提取的影格或縮圖，先將它們發送到你的圖像模型，提取簡短字幕（3–6 個字），然後將該字幕作為 GLM-5 的上下文。這能減少提示大小並降低 tokens。
盡可能批次請求：並行發送多個短任務，而不是一個長提示。這通常更便宜也更快。
為最終編輯加入人工審核環節。對於在平台間周旋的創作者和行銷人員，節省來自於減少繁瑣工作，而非完美的輸出。

適合誰，不適合誰

如果你想要一個可以控制的靈活文字模型——確定性任務、內容展開和元資料生成——GLM-5 很紮實。如果你需要在不監控 tokens 的情況下以大規模生產超低成本的臨時輸出，它就沒那麼吸引人了。

如果你有興趣，在沙箱功能中用真實提示測試它，並測量 tokens 和延遲。對我來說，這個模型在一個小型內容功能中找到了一個安靜的位置：不炫耀，但它減少了步驟，讓我工作流程的其餘部分保持完整。

一個揮之不去的想法：我一直希望有一個官方的端點健康頁面，顯示每個地區的延遲數字。如果你建構即時 UI，這種可見性會帶來很大的差異。目前，幾個快速的地區 ping 和 token 日誌記錄就能勝任這項工作。

前置條件——WaveSpeed 帳號與 API 金鑰

3 個步驟完成第一個請求（curl + Python + JS）

模型 ID 與端點

串流與非串流

關鍵參數：思考模式、temperature、max tokens

錯誤處理——速率限制、找不到模型、逾時

成本估算——每個請求的 tokens

下一步——整合到你的圖像/影片流程

相關文章

Claude Code 原始碼洩露：BUDDY、KAIROS 及所有隱藏功能完整解析

什麼是Claude Mythos？洩露資訊、Capybara等級及Anthropic的官方確認

什麼是 Claw Code？Claude Code 重寫解析

什麼是Qwen3.5-Omni：功能、版本與API存取

PixVerse V6 Extend 現已登陸WaveSpeedAI

PixVerse V6 Image-to-Video現已登陸WaveSpeedAI