用 GLM-5 + WaveSpeed 构建 AI 创意管道

你好，我是 Dora。为了完成一个简短的产品短片，我一直在多个工具之间来回切换。创意简报在一处，图像在另一处，视频又在别的地方，笔记四散各处。每一步都不难，但……很嘈杂。于是我尝试了一种更精简的方式：一条稳定的端到端路径，让我能从一份简单的创意简报直接到达成片，不再频繁切换。我把它称为 GLM-5 创意流程。我用两周时间，在三个短片概念和几个来自客户工作的零散素材上测试了这套流程。它并不华丽，但确实让工作感觉轻松了许多。

我们在构建什么（端到端概览）

我想要一条从简短创意简报到 6–10 秒视频的路径，留有小幅迭代的空间，但不需要到处寻找功能。整体流程如下：

我写一个简单的创意简报（两三句话）：基调、主题、任何限制条件。
GLM-5 将其转化为清晰的场景描述。
FLUX 或 Seedream 通过 WaveSpeed 生成静帧，以保持推理的可预测性。
WAN 2.5 或 Seedance 基于已确认的静帧构建动态效果。
GLM-5 审阅输出内容并提出精细修改建议，而非大幅改写。

我为自己制定了几条规则：

保持提示词简短且结构化。我每次使用相同的字段：主体、场景、风格、运镜备注、限制条件。
小批量处理。每次最多三个概念。这让我思路清晰，也便于对比。
满意时锁定随机种子。变体留到之后，不在当下探索。

实际操作中，这套流程减少的是点击次数和犹豫不决，而不仅仅是纯粹的时间。第三次运行时，我在典型的 90 分钟从概念到成片的流程中节省了大约 15 分钟。更大的收获是精神上的：分支更少，“要不要试试 X”的弯路更少。这正是我想要的。

第一步 —— GLM-5 根据创意简报生成场景描述

我从一个极简的创意简报开始：“窗边陶瓷马克杯上的温暖晨光。轻柔蒸汽。极简主义，平静氛围。用于 9:16 竖版社交故事。品牌色：哑光青色点缀。”

GLM-5 在创意写作方面表现出色，具备多样的风格适应性，这是智谱 AI 官方文档中的描述。我需要 GLM-5 做的不是展示聪明才智，而是提供结构：一致的场景卡片，让渲染器能够遵循执行。以下是我要求并坚持使用的格式：

场景标题
镜头类型（如：中近景）
构图（三分法则、留白备注）
光线
色调
质感/材质
运镜备注（如有）
硬性限制条件（无人脸、画面内无文字、输出尺寸）

第一版感觉过于冗长。GLM-5 对氛围解释过度。我调整了提示：「每个字段保持一句话。使用具体名词和摄影术语。」这解决了大部分问题。第二次运行时，我得到了简洁的场景卡片，可以清晰地映射到图像提示词。

小收获：我让 GLM-5 添加了我之前踩过坑的「禁止项」（多余的手、游离的 logo、带人脸的倒影）。这减少了后期的清理工作。不是完美无缺，但意外更少了。

这部分并没有在前期节省时间，而是节省了后期的判断疲劳。我不再需要在五种不同的提示词风格之间纠结，因为我只有一种。

第二步 —— FLUX / Seedream 通过 WaveSpeed 生成图像

我同时运行了 FLUX 和 Seedream，因为它们各有不同的特性。FLUX 给了我干净、设计感强的静帧；Seedream 更具随机性，但有时在陶瓷和木材的质感上能呈现出令人惊喜的美感。我通过 WaveSpeed 驱动两者，这样无需逐一管理大量参数，就能统一步数、随机种子和调度器。

字段备注：

WaveSpeed 的可重复性很重要。当我满意某一帧时，我锁定随机种子，只微调引导值和步数。这让「意外之喜」可以复现。
从一开始就按目标输出比例（9:16）设置画面。后期裁剪总会让蒸汽看起来很奇怪。
我严格使用 GLM-5 输出的提示词内容，不添加诗意的修饰语。显得生硬，但减少了奇怪的边缘问题。

摩擦点：手部和窗户。倒影很容易凭空出现人物。我在限制条件中加入了「无人物、无轮廓、无人体倒影」，并适度提高了负向引导值，有效降低了噪点。

每张静帧的生成时间从「很快」到「去倒杯咖啡回来」不等，取决于我的机器状态。每个场景我生成 8–12 张候选图，然后果断筛选至 2 张。如果无法快速做出选择，说明提示词不够精准——回到 GLM-5 做小幅修改，而不是继续钓图。

第三步 —— WAN 2.5 / Seedance 基于静帧生成视频

这部分通常是我失去方向的地方：运动选项太多了。我把自己限制在两种模式：轻微视差和柔和摄像机移动。WAN 2.5 对视差效果的处理令人信服；Seedance 在蒸汽飘动和柔焦转移等微动效上表现更佳。

从静帧到动态的移交清单：

以目标分辨率导出干净的 PNG（测试用 1080x1920）。
提供精确的运镜备注（例如：「2–3° 推镜，保持杯柄在三分线位置，蒸汽漂移适合循环」）。
时长上限 6–8 秒。更长的片段会变得模糊，并把注意力引向模型瑕疵。

意外发现：

质感闪烁。粗糙的釉面作为静帧效果很好，但在动态中会产生噪点。当我知道需要制作动画时，会在第二步适当降低质感强度。
边角扭曲。居中构图更经得起考验，偏轴的马克杯会像橡皮一样弯曲变形。

最好的运行效果感觉浑然天成。当一切奏效时，我不再关注模型本身，只是静静欣赏光线的呼吸感。当效果不好时，它会迅速崩塌——通常是因为我要求了过多的动态效果。

第四步 —— GLM-5 审阅输出并提出迭代建议

我让 GLM-5 重新介入，作为一双冷静的第三方眼睛。我要求它：

将最终短片与原始创意简报进行对比。
标记不匹配项（色调、氛围、限制条件）。
每个短片只提出一个小修改建议，而非五个。

这比我预期的更有帮助。GLM-5 能持续发现色彩偏移问题。有一次它指出青色点缀在暖光背景下显得冷峻——对背景进行微妙的色相调整解决了这个问题。

但它有时也会越界，建议添加新的道具或文字叠加。我通过设定规则进行约束：「不引入新的名词，只调整光线、色彩或运动强度。」这让迭代保持在合理范围内。

这个环节的循环很快：一轮反馈，一轮修改。如果仍不满意，我会搁置这个概念，而不是反复打磨。这种克制让流程不至于膨胀失控。

完整代码（Python，WaveSpeed SDK）

我的编排逻辑保持简单。一个 Python 脚本通过几个小辅助函数将各步骤串联起来：

一个 Brief 类，存储主体、场景、风格、运镜、限制条件。
一个 glm5() 辅助函数，负责格式化提示词并将场景卡片解析为字典。
一个 images() 辅助函数，调用 WaveSpeed 使用 FLUX 或 Seedream，传入随机种子、步数和负向提示词。
一个 video() 辅助函数，携带运镜备注将静帧传递给 WAN 2.5 或 Seedance。
一个 review() 辅助函数，将缩略图或简短 GIF 回传给 GLM-5 以获取对齐建议。

两个细节保持了流程的稳定性：

我将结果写入磁盘，使用确定性路径：run_id/scene_01/flux_seed1234.png。这让回溯变得简单。
我将参数与输出一同记录在一个小型 YAML 文件中。当某个短片效果理想时，我能清楚地知道原因。

我在这里不贴出完整代码，以免把文章变成一堆粘贴内容。上面的结构已足以用你自己的技术栈重新实现。如果你已经在使用 WaveSpeed，核心在于选择在哪里冻结随机性，在哪里允许漂移。

10 个资产的成本分解

成本因服务商和模型设置的不同而差异显著，因此请将以下内容视为我测试中的实际参考范围，而非承诺。这里的 10 个资产指 10 个短竖版短片（每个一个场景），每个场景有 8–12 张候选静帧。

GLM-5 提示词和审阅：成本轻微。GLM-5 API 定价为输入 $1.00/M token，输出 $3.20/M token，明显低于 Claude Opus 4.6（输入 $5/M，输出 $25/M）。在我的测试运行中，每个资产使用约 2–3 次简短交互加一次审阅。如果你按用量付费，10 个资产通常只需几美元。
图像生成：主要的弹性因素。在中等步数、每个场景 8–12 张候选图的情况下，按推理付费的方案中，每个资产的成本落在中高个位数美元区间。如果在自己的 GPU 上批量处理，成本会更低。
视频生成：同样可变。简单视差短片成本较低，物理感强的运动效果成本较高。在我的记录中，这部分与静帧每个资产的成本相近，有时略高。

10 个资产的大致总计，混合模型、保守设置：如果完全使用云端服务且变体较多，成本在低三位数美元；如果自托管图像步骤，只为动态效果付费，则明显更低。如果严格控制——6 张候选图而非 12 张，一次运镜处理——可以削减约三分之一。如果追求大量变体，成本会迅速翻倍。锁定随机种子和小幅迭代规则有助于控制费用。

扩展：添加 LoRA、超分辨率、批量处理

基础流程稳定后，我尝试了一些扩展。

品牌质感 LoRA：我为陶瓷釉面和背景纸张训练了一个小型点缀包。它有助于在不同场景间保持材质的一致性。诀窍是使用适中的权重——权重过大会把所有东西拉向同一种风格。
轻度超分辨率：我只在生成动态效果之后进行超分，而不是之前。前置超分会放大瑕疵；后置超分配合轻量级的细节保留模型，可以保持边缘清晰，而不会在马克杯上凭空生成毛孔。
批量处理：我添加了一个队列，每个概念作为一个整体推进，不混合来自不同创意简报的步骤。听起来很严格，但它让我避免了「再试一次」的漩涡。

有几件事我没有保留：

流程内的自动字幕生成。它会将视觉效果往「内容」方向拉，而不是让图像自然流动。我在接近发布时在流程外添加字幕。
激进的风格混搭。在网格展示时效果不错，在动态中显得疲乏。

适合这套流程的人：喜欢可预测路径和稳定小幅收益的创作者。不会让谁兴奋的人：追求视觉奇观或高变异度艺术的人。这没什么问题。

我的初衷是让 GLM-5 创意流程更安静，而不是更聪明。在顺利的日子里，它正是如此：一只马克杯，一束光，和比平时少开的几个标签页。我很满足。

我们在构建什么（端到端概览）

第一步 —— GLM-5 根据创意简报生成场景描述

第二步 —— FLUX / Seedream 通过 WaveSpeed 生成图像

第三步 —— WAN 2.5 / Seedance 基于静帧生成视频

第四步 —— GLM-5 审阅输出并提出迭代建议

完整代码（Python，WaveSpeed SDK）

10 个资产的成本分解

扩展：添加 LoRA、超分辨率、批量处理

相关文章

Claude Code源码泄露：BUDDY、KAIROS及所有隐藏功能全解析

什么是Claude Mythos？泄露信息、Capybara等级及Anthropic官方确认内容

什么是 Claw Code？Claude Code 重写详解

Qwen3.5-Omni 是什么：功能、版本与 API 访问指南

PixVerse V6 Extend 现已登陆WaveSpeedAI

PixVerse V6图生视频现已登陆WaveSpeedAI