← 博客

用 GLM-5 + WaveSpeed 构建 AI 创意管道

构建完整的 AI 创意管道:GLM-5 编写提示词,WaveSpeed 生成图像和视频,全程通过 API 统一调度。

2 min read
用 GLM-5 + WaveSpeed 构建 AI 创意管道

你好,我是 Dora。为了完成一个简短的产品短片,我一直在多个工具之间来回切换。创意简报在一处,图像在另一处,视频又在别的地方,笔记四散各处。每一步都不难,但……很嘈杂。于是我尝试了一种更精简的方式:一条稳定的端到端路径,让我能从一份简单的创意简报直接到达成片,不再频繁切换。我把它称为 GLM-5 创意流程。我用两周时间,在三个短片概念和几个来自客户工作的零散素材上测试了这套流程。它并不华丽,但确实让工作感觉轻松了许多。

我们在构建什么(端到端概览)

我想要一条从简短创意简报到 6–10 秒视频的路径,留有小幅迭代的空间,但不需要到处寻找功能。整体流程如下:

  • 我写一个简单的创意简报(两三句话):基调、主题、任何限制条件。
  • GLM-5 将其转化为清晰的场景描述。
  • FLUX 或 Seedream 通过 WaveSpeed 生成静帧,以保持推理的可预测性。
  • WAN 2.5 或 Seedance 基于已确认的静帧构建动态效果。
  • GLM-5 审阅输出内容并提出精细修改建议,而非大幅改写。

我为自己制定了几条规则:

  • 保持提示词简短且结构化。我每次使用相同的字段:主体、场景、风格、运镜备注、限制条件。
  • 小批量处理。每次最多三个概念。这让我思路清晰,也便于对比。
  • 满意时锁定随机种子。变体留到之后,不在当下探索。

实际操作中,这套流程减少的是点击次数和犹豫不决,而不仅仅是纯粹的时间。第三次运行时,我在典型的 90 分钟从概念到成片的流程中节省了大约 15 分钟。更大的收获是精神上的:分支更少,“要不要试试 X”的弯路更少。这正是我想要的。

第一步 —— GLM-5 根据创意简报生成场景描述

我从一个极简的创意简报开始:“窗边陶瓷马克杯上的温暖晨光。轻柔蒸汽。极简主义,平静氛围。用于 9:16 竖版社交故事。品牌色:哑光青色点缀。”

GLM-5 在创意写作方面表现出色,具备多样的风格适应性,这是智谱 AI 官方文档中的描述。我需要 GLM-5 做的不是展示聪明才智,而是提供结构:一致的场景卡片,让渲染器能够遵循执行。以下是我要求并坚持使用的格式:

  • 场景标题
  • 镜头类型(如:中近景)
  • 构图(三分法则、留白备注)
  • 光线
  • 色调
  • 质感/材质
  • 运镜备注(如有)
  • 硬性限制条件(无人脸、画面内无文字、输出尺寸)

第一版感觉过于冗长。GLM-5 对氛围解释过度。我调整了提示:「每个字段保持一句话。使用具体名词和摄影术语。」这解决了大部分问题。第二次运行时,我得到了简洁的场景卡片,可以清晰地映射到图像提示词。

小收获:我让 GLM-5 添加了我之前踩过坑的「禁止项」(多余的手、游离的 logo、带人脸的倒影)。这减少了后期的清理工作。不是完美无缺,但意外更少了。

这部分并没有在前期节省时间,而是节省了后期的判断疲劳。我不再需要在五种不同的提示词风格之间纠结,因为我只有一种。

第二步 —— FLUX / Seedream 通过 WaveSpeed 生成图像

我同时运行了 FLUX 和 Seedream,因为它们各有不同的特性。FLUX 给了我干净、设计感强的静帧;Seedream 更具随机性,但有时在陶瓷和木材的质感上能呈现出令人惊喜的美感。我通过 WaveSpeed 驱动两者,这样无需逐一管理大量参数,就能统一步数、随机种子和调度器。

字段备注:

  • WaveSpeed 的可重复性很重要。当我满意某一帧时,我锁定随机种子,只微调引导值和步数。这让「意外之喜」可以复现。
  • 从一开始就按目标输出比例(9:16)设置画面。后期裁剪总会让蒸汽看起来很奇怪。
  • 我严格使用 GLM-5 输出的提示词内容,不添加诗意的修饰语。显得生硬,但减少了奇怪的边缘问题。

摩擦点:手部和窗户。倒影很容易凭空出现人物。我在限制条件中加入了「无人物、无轮廓、无人体倒影」,并适度提高了负向引导值,有效降低了噪点。

每张静帧的生成时间从「很快」到「去倒杯咖啡回来」不等,取决于我的机器状态。每个场景我生成 8–12 张候选图,然后果断筛选至 2 张。如果无法快速做出选择,说明提示词不够精准——回到 GLM-5 做小幅修改,而不是继续钓图。

第三步 —— WAN 2.5 / Seedance 基于静帧生成视频

这部分通常是我失去方向的地方:运动选项太多了。我把自己限制在两种模式:轻微视差和柔和摄像机移动。WAN 2.5 对视差效果的处理令人信服;Seedance 在蒸汽飘动和柔焦转移等微动效上表现更佳。

从静帧到动态的移交清单:

  • 以目标分辨率导出干净的 PNG(测试用 1080x1920)。
  • 提供精确的运镜备注(例如:「2–3° 推镜,保持杯柄在三分线位置,蒸汽漂移适合循环」)。
  • 时长上限 6–8 秒。更长的片段会变得模糊,并把注意力引向模型瑕疵。

意外发现:

  • 质感闪烁。粗糙的釉面作为静帧效果很好,但在动态中会产生噪点。当我知道需要制作动画时,会在第二步适当降低质感强度。
  • 边角扭曲。居中构图更经得起考验,偏轴的马克杯会像橡皮一样弯曲变形。

最好的运行效果感觉浑然天成。当一切奏效时,我不再关注模型本身,只是静静欣赏光线的呼吸感。当效果不好时,它会迅速崩塌——通常是因为我要求了过多的动态效果。

第四步 —— GLM-5 审阅输出并提出迭代建议

我让 GLM-5 重新介入,作为一双冷静的第三方眼睛。我要求它:

  • 将最终短片与原始创意简报进行对比。
  • 标记不匹配项(色调、氛围、限制条件)。
  • 每个短片只提出一个小修改建议,而非五个。

这比我预期的更有帮助。GLM-5 能持续发现色彩偏移问题。有一次它指出青色点缀在暖光背景下显得冷峻——对背景进行微妙的色相调整解决了这个问题。

但它有时也会越界,建议添加新的道具或文字叠加。我通过设定规则进行约束:「不引入新的名词,只调整光线、色彩或运动强度。」这让迭代保持在合理范围内。

这个环节的循环很快:一轮反馈,一轮修改。如果仍不满意,我会搁置这个概念,而不是反复打磨。这种克制让流程不至于膨胀失控。

完整代码(Python,WaveSpeed SDK)

我的编排逻辑保持简单。一个 Python 脚本通过几个小辅助函数将各步骤串联起来:

  • 一个 Brief 类,存储主体、场景、风格、运镜、限制条件。
  • 一个 glm5() 辅助函数,负责格式化提示词并将场景卡片解析为字典。
  • 一个 images() 辅助函数,调用 WaveSpeed 使用 FLUX 或 Seedream,传入随机种子、步数和负向提示词。
  • 一个 video() 辅助函数,携带运镜备注将静帧传递给 WAN 2.5 或 Seedance。
  • 一个 review() 辅助函数,将缩略图或简短 GIF 回传给 GLM-5 以获取对齐建议。

两个细节保持了流程的稳定性:

  • 我将结果写入磁盘,使用确定性路径:run_id/scene_01/flux_seed1234.png。这让回溯变得简单。
  • 我将参数与输出一同记录在一个小型 YAML 文件中。当某个短片效果理想时,我能清楚地知道原因。

我在这里不贴出完整代码,以免把文章变成一堆粘贴内容。上面的结构已足以用你自己的技术栈重新实现。如果你已经在使用 WaveSpeed,核心在于选择在哪里冻结随机性,在哪里允许漂移。

10 个资产的成本分解

成本因服务商和模型设置的不同而差异显著,因此请将以下内容视为我测试中的实际参考范围,而非承诺。这里的 10 个资产指 10 个短竖版短片(每个一个场景),每个场景有 8–12 张候选静帧。

  • GLM-5 提示词和审阅:成本轻微。GLM-5 API 定价为输入 $1.00/M token,输出 $3.20/M token,明显低于 Claude Opus 4.6(输入 $5/M,输出 $25/M)。在我的测试运行中,每个资产使用约 2–3 次简短交互加一次审阅。如果你按用量付费,10 个资产通常只需几美元。
  • 图像生成:主要的弹性因素。在中等步数、每个场景 8–12 张候选图的情况下,按推理付费的方案中,每个资产的成本落在中高个位数美元区间。如果在自己的 GPU 上批量处理,成本会更低。
  • 视频生成:同样可变。简单视差短片成本较低,物理感强的运动效果成本较高。在我的记录中,这部分与静帧每个资产的成本相近,有时略高。

10 个资产的大致总计,混合模型、保守设置:如果完全使用云端服务且变体较多,成本在低三位数美元;如果自托管图像步骤,只为动态效果付费,则明显更低。如果严格控制——6 张候选图而非 12 张,一次运镜处理——可以削减约三分之一。如果追求大量变体,成本会迅速翻倍。锁定随机种子和小幅迭代规则有助于控制费用。

扩展:添加 LoRA、超分辨率、批量处理

基础流程稳定后,我尝试了一些扩展。

  • 品牌质感 LoRA:我为陶瓷釉面和背景纸张训练了一个小型点缀包。它有助于在不同场景间保持材质的一致性。诀窍是使用适中的权重——权重过大会把所有东西拉向同一种风格。
  • 轻度超分辨率:我只在生成动态效果之后进行超分,而不是之前。前置超分会放大瑕疵;后置超分配合轻量级的细节保留模型,可以保持边缘清晰,而不会在马克杯上凭空生成毛孔。
  • 批量处理:我添加了一个队列,每个概念作为一个整体推进,不混合来自不同创意简报的步骤。听起来很严格,但它让我避免了「再试一次」的漩涡。

有几件事我没有保留:

  • 流程内的自动字幕生成。它会将视觉效果往「内容」方向拉,而不是让图像自然流动。我在接近发布时在流程外添加字幕。
  • 激进的风格混搭。在网格展示时效果不错,在动态中显得疲乏。

适合这套流程的人:喜欢可预测路径和稳定小幅收益的创作者。不会让谁兴奋的人:追求视觉奇观或高变异度艺术的人。这没什么问题。

我的初衷是让 GLM-5 创意流程更安静,而不是更聪明。在顺利的日子里,它正是如此:一只马克杯,一束光,和比平时少开的几个标签页。我很满足。