← 部落格

使用GLM-5 + WaveSpeed打造AI創意流水線

打造完整的AI創意流水線:GLM-5撰寫提示詞,WaveSpeed生成圖像與影片,全程透過API統一協調。

2 min read
使用GLM-5 + WaveSpeed打造AI創意流水線

嗨,我是 Dora。過去我為了產出一支短短的產品影片,總要在不同工具間來回切換。簡報在一個地方、圖片在另一個地方、影片又在別處、筆記散落各地。每個步驟本身都不難,但整個過程……太嘈雜了。於是我試著找一條更精簡的路:一個穩定的端到端流程,讓我能從一份簡單的 brief 直接走到成片,不再需要不停地切換視窗。我把它稱為 GLM-5 創意流水線。我在兩週內用三個短概念和幾個零碎的客戶素材測試了它。這個流程並不華麗,但它確實讓工作變得更輕鬆。

我們要做什麼(端到端總覽)

我想要一條從簡短 brief 到 6–10 秒影片的完整路徑,保留小幅迭代的空間,但不追求功能堆砌。整體架構如下:

  • 我寫一個簡單的 brief(兩到三句話):基調、主題、任何限制條件。
  • GLM-5 將其轉化為清晰的場景描述。
  • FLUX 或 Seedream 透過 WaveSpeed 生成靜態畫面,讓推論過程保持可預測性。
  • WAN 2.5 或 Seedance 根據確認的靜態畫面生成動態影像。
  • GLM-5 審核輸出結果,提出精準的修改建議,而非大幅改寫。

我為自己設立了幾條規則:

  • 保持提示詞簡短且結構化。我每次都使用相同的欄位:主體、場景、風格、動態備註、限制條件。
  • 小批次處理。每次最多三個概念。這讓我保持清醒的頭腦,也方便互相比較。
  • 滿意某個結果時就鎖定種子值(seed)。變體留到之後再試,不在當下處理。

實際執行下來,這個流水線減少的是點擊次數和猶豫不決,而非單純縮短時間。在第三次執行時,我在一般需要 90 分鐘的概念到成片流程中節省了約 15 分鐘。更大的收穫是心理上的:分支更少、「要不要試試 X」的繞路也更少。這正是我想要的。

步驟一:GLM-5 根據 brief 生成場景描述

我從一個極簡的 brief 開始:「窗邊陶瓷馬克杯上的溫暖晨光。柔和的蒸氣。極簡主義,寧靜的氛圍。用於 9:16 社群限時動態。品牌色:啞光藍綠色點綴。」

根據智譜 AI 的官方文件,GLM-5 在創意寫作方面表現出色,風格多元。我需要 GLM-5 提供的不是靈感,而是結構:一致的場景卡片,讓渲染器能夠遵循執行。以下是我要求並堅持使用的格式:

  • 場景標題
  • 鏡頭類型(例如:中近景)
  • 構圖(三分法則、負空間備註)
  • 光線
  • 色調
  • 紋理/材質
  • 動態備註(若有)
  • 硬性限制(無人臉、畫面無文字、輸出尺寸)

第一次生成的結果過於冗長,GLM-5 對氛圍描述過度。我給了它提示:「每個欄位保持一句話。使用具體的名詞和攝影術語。」這解決了大部分問題。到第二次執行時,我得到的是清晰簡潔的場景卡片,能直接對應到圖像提示詞。

小收穫:我請 GLM-5 加入我以往踩過坑的「禁止項目」(多餘的手、雜亂的商標、帶有人臉的反光)。這減少了後期的清理工作。雖不完美,但意外驚喜少了很多。

這個步驟並沒有節省前期時間,它節省的是後期的判斷疲勞。我不用在五種不同的提示詞風格之間做選擇,因為我只有一種。

步驟二:透過 WaveSpeed 使用 FLUX / Seedream 生成圖像

我同時測試了 FLUX 和 Seedream,因為它們各有不同的性格。FLUX 給了我乾淨、設計感強的靜態畫面;Seedream 則更為隨性,但有時在陶瓷和木材的質感表現上能找到令人驚豔的細節。我透過 WaveSpeed 驅動兩者,這樣我就能標準化步驟、種子值和調度器,而不用手動管理大量參數。

使用心得:

  • WaveSpeed 的可重現性至關重要。當我滿意某個畫面時,我鎖定種子值,只微調引導強度和步驟數。這讓「美麗的意外」變得可以重現。
  • 從一開始就設定目標輸出的長寬比(9:16)。事後裁切總會讓蒸氣看起來奇怪。
  • 我嚴格使用 GLM-5 輸出的提示詞,不添加詩意的修飾語。雖然單調,但它減少了奇怪的邊緣問題。

摩擦點在於手部和窗戶。反光很容易憑空製造出人物。我在限制條件中加入「無人物、無剪影、無人臉倒影」,並稍微提高了負向引導強度,這削減了這類雜訊。

每張靜態畫面的生成時間從很快到「夠去補一杯咖啡」不等,視機器狀況而定。我每個場景生成 8–12 張候選圖,然後嚴格篩選到 2 張。如果我無法快速做出選擇,那就代表提示詞還不夠精準——回到 GLM-5 做小幅修改,而不是繼續瘋狂生圖。

步驟三:WAN 2.5 / Seedance 根據靜態畫面生成影片

這個部分是我通常迷失方向的地方:動態選項太多了。我將自己限制在兩種模式:輕微視差和緩慢攝影機移動。WAN 2.5 在視差表現上相當自然。Seedance 則在微小動作上表現更好,例如蒸氣飄散和柔和的焦距偏移。

從靜態圖到動態影像的交接清單:

  • 以目標解析度匯出乾淨的 PNG(測試時用 1080x1920)。
  • 提供精確的動態備註(例如:「2–3° 向前推軌,保持馬克杯把手在三分之一處,適合循環的蒸氣飄移」)。
  • 將時長上限設為 6–8 秒。較長的片段容易變得模糊,且容易暴露模型的瑕疵。

意外發現:

  • 紋理閃爍。粗顆粒的釉面作為靜態圖看起來很美,但在動態中會產生雜訊。當我知道要做動畫時,我會在步驟二中降低紋理強度。
  • 邊角變形。置中的構圖更能維持穩定;偏軸的馬克杯會像橡皮一樣彎曲。

最好的執行結果是渾然天成的。當它運作良好時,我不再思考模型本身,只是靜靜地看著光線呼吸。當它失敗時,往往崩潰得很快——通常是因為我要求了太多動態。

步驟四:GLM-5 審核輸出並提出迭代建議

我讓 GLM-5 作為一雙冷靜的第二雙眼睛回到流程中。我請它:

  • 將最終片段與原始 brief 進行比對。
  • 標記不符之處(色調、氛圍、限制條件)。
  • 每個片段只提出一個小修改建議,而非五個。

這比我預期的更有幫助。GLM-5 始終能發現色彩偏移。在某次執行中,它指出藍綠色點綴在溫暖光線下顯得過冷——稍微調整背景色調後就解決了這個問題。

但它有時也會過度介入,建議加入新的道具或文字疊加。我設定了一條規則加以反制:「不得使用新的名詞。只調整光線、色彩或動態強度。」這讓迭代方向保持踏實。

這裡的循環很快:一輪備註,一輪修正。如果還是不滿意,我就把這個概念擱置,而不是繼續死磕。這種克制讓流水線保持了精簡。

完整程式碼(Python,WaveSpeed SDK)

我讓流程協調保持簡單。一個 Python 腳本透過幾個小型輔助函式將各步驟串聯起來:

  • 一個 Brief 類別,儲存主體、場景、風格、動態、限制條件。
  • 一個 glm5() 輔助函式,負責格式化提示詞並將場景卡片解析為字典。
  • 一個 images() 輔助函式,使用 FLUX 或 Seedream 呼叫 WaveSpeed,並傳入種子值、步驟數和負向提示詞。
  • 一個 video() 輔助函式,將靜態圖連同動態備註交給 WAN 2.5 或 Seedance 處理。
  • 一個 review() 輔助函式,將縮圖或短 GIF 回饋給 GLM-5 以進行一致性檢查。

讓它保持穩定的兩個細節:

  • 我以確定性的路徑將結果寫入磁碟:run_id/scene_01/flux_seed1234.png。這讓回溯變得容易。
  • 我在輸出旁邊用一個小型 YAML 檔案記錄參數。當某個片段效果很好時,我能清楚地知道原因。

我不在這裡貼出程式碼,以免這篇文章變成程式碼堆貼。上面的架構已經足夠讓你用自己的技術棧重建它。如果你已經在使用 WaveSpeed,關鍵就在於決定在哪裡鎖定隨機性、在哪裡允許漂移。

10 個素材的成本分析

成本因供應商和模型設定而差異很大,因此請將此視為我測試的實際範圍,而非保證。這裡的 10 個素材是指 10 個短版豎向片段(每個場景一個),每個場景有 8–12 張靜態候選圖。

  • GLM-5 提示詞處理和審核:輕量。GLM-5 API 定價為輸入 $1.00/M、輸出 $3.20/M,明顯低於 Claude Opus 4.6(輸入 $5/M、輸出 $25/M)。在我的執行中,每個素材使用了約 2–3 次簡短互動加上一次審核。如果你採用按用量計費,10 個素材通常只需幾美元。
  • 圖像生成:主要的浮動因素。在中等步驟數、每個場景 8–12 張候選圖的情況下,按推論計費方案下,我看到每個素材的成本落在中到高個位數美元。如果你在自己的 GPU 上批次處理,成本會更低。
  • 影片生成:同樣浮動。簡單的視差片段成本較低;物理動態較多的片段成本較高。根據我的記錄,這與每個素材的圖像成本相近,有時略高。

10 個素材的粗略總成本,混合模型、保守設定:如果完全使用雲端並進行充足的變體嘗試,大約在低三位數美元;如果自行托管圖像步驟、只為動態影像付費,則會明顯更低。如果嚴格控制——每個場景 6 張候選圖而非 12 張、一次動態生成——可以削減約三分之一。如果追求大量變體,成本很快就會翻倍。種子鎖定和小幅迭代規則有助於控制費用。

延伸:加入 LoRA、放大處理、批次處理

在基礎流程穩定之後,我嘗試了幾個擴展。

  • 品牌質感 LoRA:我為陶瓷釉面和背景紙材訓練了一個小型點綴包。它有助於在不同場景之間保持材質的一致性。訣竅在於適度的權重——LoRA 過強會把所有東西都拉向同一種風格。
  • 輕度放大處理:我只在動態影像生成後進行放大,而非之前。預先放大會讓瑕疵更加明顯。動態生成後再用輕量、注重細節保留的模型進行放大,能讓邊緣保持乾淨,而不會在馬克杯上憑空製造出毛孔。
  • 批次處理:我加入了一個佇列,讓每個概念作為一個單元移動,不混合來自不同 brief 的步驟。聽起來很嚴格,但它讓我避免了「再試一次就好」的無底洞。

有幾件事我沒有保留:

  • 在流水線中內建自動加字幕。這會把視覺效果往「內容」方向拉,而不是「會動的圖像」。我在流水線外部進行字幕處理,更接近發布時才做。
  • 激進的風格混搭。在格線預覽時看起來很好,但在動態影像中顯得疲憊。

這個流程適合的人:喜歡可預測路徑和穩定小幅提升的創作者。不適合的人:追求視覺震撼或高變異藝術創作的人。這完全合理。

我著手讓這個 GLM-5 創意流水線變得更安靜,而不是更聰明。在狀態好的日子裡,它確實如此:一個馬克杯、一束光線,還有比平時少打開的分頁。我很滿意。