GLM-5 API 快速入门 WaveSpeed（代码示例）

你好，我是 Dora。2026 年 1 月，我在为一个小型内容生成功能做原型时，偶然发现了 GLM-5。之前听说过这个名字——性能扎实、架构合理——但我当时只想搞清楚一件事：能不能不折腾一周的管道配置，就把它接入现有工作流？这篇文章就是干这件事的：从拿到凭据开始，到考虑把它接入图像或视频管道为止，对 GLM-5 API 做一次平静、实操的走查。我会展示命令、指出我曾经迟疑的地方，并记录我遇到的权衡，供你判断它是否适合你的工作方式。

前置条件——WaveSpeed 账号 + API 密钥

在你写下第一行 curl 命令之前，有一个不起眼的步骤：注册账号并获取 API 密钥。我在 WaveSpeed 上完成了这一步：流程很直接，但有两个小细节需要注意。

第一，获取一个专门针对 GLM-5 端点的密钥。有时候高吞吐量模型需要单独的 token 或角色，用错密钥会得到一条言简意赅的”model not found”报错，看起来像是别的问题——我为此浪费了十分钟，直到去检查这一点才发现原因。第二，记下控制台上列出的区域/端点。部分账号会将模型映射到区域性端点，如果你在做视频或交互功能，这对延迟很重要。

我用过的实操清单：

创建 WaveSpeed 账号并验证邮箱。
创建一个标注为开发/测试用途的 API 密钥。
确认 GLM-5 模型出现在控制台中，并记下所列的端点区域。
把密钥放入本地的 .env 文件，而不是粘贴到测试脚本里（后续摩擦最小）。

就这些。不需要特殊硬件，也不需要购买 SDK。只需要一个 API 密钥，以及检查端点映射的耐心。

3 步发出第一个请求（curl + Python + JS）

我喜欢从 curl 请求开始——它诚实，能直接暴露请求头、状态码和原始 JSON，没有任何抽象层。之后我转向 Python 做实验，在想快速搭一个小 UI 原型时用 JS。

模型 ID 与端点

GLM-5 API 需要一个模型 ID 和一个端点 URL。在我的测试中，模型 ID 看起来像 glm-5-v1（请在你的控制台确认：名称可能因版本而异）。端点是你 POST 请求的目标主机：对我来说它有区域前缀。任一填错都会立即返回 404 或 model-not-found 的 JSON 报错。

我运行过的一个最简 curl 示例（根据你的密钥和端点调整）：

curl -X POST "https://your-region.api.wavespeed/v1/models/glm-5-v1/generate" \
-H "Authorization: Bearer $WAVESPEED_KEY" \
-H "Content-Type: application/json" \
-d '{"prompt":"Write a short intro about mindful workflows.","max_tokens":120}'

它返回了一个包含文本和 token 元数据的小型 JSON。简洁，反馈即时。

流式 vs 非流式

GLM-5 同时支持流式和非流式响应。我最初用非流式保持简单，后来在一个小型编辑器原型里切换到了流式。流式可以降低感知延迟：文字在生成时即时出现，有助于提升交互感。但流式也增加了复杂度——连接管理、不完整结果，以及你这边需要做一点状态管理。

我在本地 demo（Node.js，EventSource 风格）中使用流式时，注意到两个行为：

第一个 token 到达很快，感觉很灵敏。
偶尔一个部分 chunk 会带有小小的格式问题（在句子中间截断）。处理起来很简单，但值得知道。

如果你关心即时用户反馈——聊天 UI、实时助手——就从流式开始。批量生成或简单脚本用非流式更简单，也更不容易出错。

关键参数：思考模式、温度、最大 token 数

有三个参数比其他任何参数都更能塑造我的使用体验：思考模式、温度和最大 token 数。我通过几个短实验对它们进行了调整。

思考模式

GLM-5 暴露了一个”thinking mode”参数，用于引导模型如何推理 prompt。可以把它看作一套宽松的指令集：低开销模式优先考虑速度和简洁；更重的模式优先考虑深度和多步推理。我在写简短营销文案时用了更快的模式，在让模型为多部分教程生成大纲时用了更深的模式。

我的体会：不要把思考模式当作魔法。它改变了模型的处理方式，但当你需要多步骤输出时，仍然需要结构化的 prompt。

温度

温度控制随机性。我用 0.0、0.3 和 0.8 运行了同一个 prompt。0.0 时输出一致且稳健，适合模板和代码生成。0.8 时模型提供了更有创意的表达，有时能给出有帮助的措辞，有时则飘进了废话。

我用的实用规则：生产文本从 0.2–0.4 开始，确定性任务（如 SQL）用 0.0，头脑风暴用 0.6–0.8。

最大 token 数

max tokens 限制输出长度。我发现 GLM-5 在响应中给出的 token 数比较可预测。当我把 max_tokens 设得太低时，模型会在思路中途截断，在撰写要点大纲时很令人沮丧。不确定时，我会多留余量，然后在客户端做裁剪。我用的一个小启发式方法：估算词数 × 1.3 = token 数，再加 10% 缓冲。

错误处理——速率限制、模型未找到、超时

报错是你了解一个平台形态的地方。

速率限制

WaveSpeed 会返回清晰的速率限制响应头和 HTTP 429。在我的原型中，我在两台机器上跑并发测试时触发了 429。我的处理方式是实现带抖动的指数退避，并在客户端对请求排队。这消除了大部分 429。如果你的应用会对用户请求排队，展示一个温和的”处理中”状态比直接显示报错要好。

模型未找到

这是一个常见的误报。它可能意味着模型 ID 拼写错误、密钥没有该模型的权限，或者该模型在你所在区域不可用。我看到这个报错时的排查清单：

确认模型 ID 与控制台完全一致。
检查 API 密钥 是否具有正确的范围/角色。
如果有其他区域端点，试试看。

超时

对于长时生成或较重的思考模式，我偶尔会遇到超时。我的方法比较保守：对调用 GLM-5 API 的特定路由增加服务端超时时间，并在可以流式传输时提供进度 UI。如果能把任务拆成更小的步骤（生成大纲 → 展开各节），可以降低超时风险，失败也更容易管理。

日志与可观测性

我会记录成功和失败响应中的请求 ID。这让后来与支持团队调试时容易多了。

成本估算——每次请求的 token 数

成本很重要。我在 2026 年 1 月连续四天做了一个小实验，估算一个内容功能的每次请求 token 用量——该功能每次请求生成 400–800 词。

我测量的内容

Prompt token：通常 40–120 个，取决于上下文大小。
Completion token：600 词的输出大约产生约 750 个 token（不同模型的分词方式略有差异）。每次请求平均总计 820–900 个 token。

我计算成本的快速方法：

从响应元数据中追踪 prompt + completion token。
对某个用例的 30 次请求取平均值。
乘以模型的 token 单价（在你的 WaveSpeed 控制台查看当前费率）。

让我意外的事情

系统提示和长对话历史累积很快。如果你缓存了聊天历史，要积极地裁剪它。
开发过程中的重复重试会让我的数据产生偏差：我建议使用单独的开发密钥，并密切关注 token 响应头。

如果你想要一个粗略的数字：短文案生成（100–200 词），预计每次请求 150–300 个 token；长文（500–800 词），预计 600–900 个 token。实际情况因 prompt 而异，建议用你自己的 prompt 实测。

下一步——接入图像/视频管道

我没有止步于文本。对我来说，下一个显而易见的问题是：GLM-5 如何融入媒体管道——字幕、场景描述、视频脚本或元数据丰富。

我尝试过的几种实用模式

字幕助手：发送简短的场景描述，让 GLM-5 生成简洁字幕。保持 prompt 严格，温度调低，以获得一致的措辞。
脚本扩展：用 GLM-5 将要点大纲扩展成短脚本。我把大纲拆成逐场景请求，以避免长输出，并实现并行生成。
元数据标注：对于视频片段的自动标注，我使用确定性模式和一个小型 JSON schema prompt，让模型返回可预测的键值对。

集成建议

如果你要包含提取的帧或缩略图，先把它们发给图像模型，提取一段简短的描述（3–6 个词），再把这段描述作为 GLM-5 的上下文。这样可以减小 prompt 体积，降低 token 消耗。
尽量批量处理请求：并行发送多个短任务，而不是一个长 prompt。通常更便宜也更快。
在最终编辑环节加入人工审核。对于在多个平台之间周转的创作者和营销人员，节省来自减少繁琐工作，而非完美输出。

适合谁，不适合谁

如果你想要一个可控的灵活文本模型——确定性任务、内容扩展、元数据生成——GLM-5 是扎实的选择。如果你需要在大规模场景下以超低成本随意生成内容，且不做 token 监控，那它就没那么吸引人了。

如果你感兴趣，用真实 prompt 在一个沙箱功能里测试它，测量 token 和延迟。对我来说，这个模型在一个小型内容功能里找到了自己平静的位置：不炫，但它减少了步骤，让我工作流的其余部分保持完整。

一个小小的遗留想法：我一直希望有一个官方的端点健康页面，显示各区域的延迟数据。如果你在构建实时 UI，这种可见性会带来很大不同。目前，几次快速的区域 ping 测试加上 token 日志，足以应付。

前置条件——WaveSpeed 账号 + API 密钥

3 步发出第一个请求（curl + Python + JS）

模型 ID 与端点

流式 vs 非流式

关键参数：思考模式、温度、最大 token 数

错误处理——速率限制、模型未找到、超时

成本估算——每次请求的 token 数

下一步——接入图像/视频管道

相关文章

Claude Code源码泄露：BUDDY、KAIROS及所有隐藏功能全解析

什么是Claude Mythos？泄露信息、Capybara等级及Anthropic官方确认内容

什么是 Claw Code？Claude Code 重写详解

Qwen3.5-Omni 是什么：功能、版本与 API 访问指南

PixVerse V6 Extend 现已登陆WaveSpeedAI

PixVerse V6图生视频现已登陆WaveSpeedAI