使用GLM-5 + WaveSpeed打造AI創意流水線

嗨，我是 Dora。過去我為了產出一支短短的產品影片，總要在不同工具間來回切換。簡報在一個地方、圖片在另一個地方、影片又在別處、筆記散落各地。每個步驟本身都不難，但整個過程……太嘈雜了。於是我試著找一條更精簡的路：一個穩定的端到端流程，讓我能從一份簡單的 brief 直接走到成片，不再需要不停地切換視窗。我把它稱為 GLM-5 創意流水線。我在兩週內用三個短概念和幾個零碎的客戶素材測試了它。這個流程並不華麗，但它確實讓工作變得更輕鬆。

我們要做什麼（端到端總覽）

我想要一條從簡短 brief 到 6–10 秒影片的完整路徑，保留小幅迭代的空間，但不追求功能堆砌。整體架構如下：

我寫一個簡單的 brief（兩到三句話）：基調、主題、任何限制條件。
GLM-5 將其轉化為清晰的場景描述。
FLUX 或 Seedream 透過 WaveSpeed 生成靜態畫面，讓推論過程保持可預測性。
WAN 2.5 或 Seedance 根據確認的靜態畫面生成動態影像。
GLM-5 審核輸出結果，提出精準的修改建議，而非大幅改寫。

我為自己設立了幾條規則：

保持提示詞簡短且結構化。我每次都使用相同的欄位：主體、場景、風格、動態備註、限制條件。
小批次處理。每次最多三個概念。這讓我保持清醒的頭腦，也方便互相比較。
滿意某個結果時就鎖定種子值（seed）。變體留到之後再試，不在當下處理。

實際執行下來，這個流水線減少的是點擊次數和猶豫不決，而非單純縮短時間。在第三次執行時，我在一般需要 90 分鐘的概念到成片流程中節省了約 15 分鐘。更大的收穫是心理上的：分支更少、「要不要試試 X」的繞路也更少。這正是我想要的。

步驟一：GLM-5 根據 brief 生成場景描述

我從一個極簡的 brief 開始：「窗邊陶瓷馬克杯上的溫暖晨光。柔和的蒸氣。極簡主義，寧靜的氛圍。用於 9:16 社群限時動態。品牌色：啞光藍綠色點綴。」

根據智譜 AI 的官方文件，GLM-5 在創意寫作方面表現出色，風格多元。我需要 GLM-5 提供的不是靈感，而是結構：一致的場景卡片，讓渲染器能夠遵循執行。以下是我要求並堅持使用的格式：

場景標題
鏡頭類型（例如：中近景）
構圖（三分法則、負空間備註）
光線
色調
紋理／材質
動態備註（若有）
硬性限制（無人臉、畫面無文字、輸出尺寸）

第一次生成的結果過於冗長，GLM-5 對氛圍描述過度。我給了它提示：「每個欄位保持一句話。使用具體的名詞和攝影術語。」這解決了大部分問題。到第二次執行時，我得到的是清晰簡潔的場景卡片，能直接對應到圖像提示詞。

小收穫：我請 GLM-5 加入我以往踩過坑的「禁止項目」（多餘的手、雜亂的商標、帶有人臉的反光）。這減少了後期的清理工作。雖不完美，但意外驚喜少了很多。

這個步驟並沒有節省前期時間，它節省的是後期的判斷疲勞。我不用在五種不同的提示詞風格之間做選擇，因為我只有一種。

步驟二：透過 WaveSpeed 使用 FLUX / Seedream 生成圖像

我同時測試了 FLUX 和 Seedream，因為它們各有不同的性格。FLUX 給了我乾淨、設計感強的靜態畫面；Seedream 則更為隨性，但有時在陶瓷和木材的質感表現上能找到令人驚豔的細節。我透過 WaveSpeed 驅動兩者，這樣我就能標準化步驟、種子值和調度器，而不用手動管理大量參數。

使用心得：

WaveSpeed 的可重現性至關重要。當我滿意某個畫面時，我鎖定種子值，只微調引導強度和步驟數。這讓「美麗的意外」變得可以重現。
從一開始就設定目標輸出的長寬比（9:16）。事後裁切總會讓蒸氣看起來奇怪。
我嚴格使用 GLM-5 輸出的提示詞，不添加詩意的修飾語。雖然單調，但它減少了奇怪的邊緣問題。

摩擦點在於手部和窗戶。反光很容易憑空製造出人物。我在限制條件中加入「無人物、無剪影、無人臉倒影」，並稍微提高了負向引導強度，這削減了這類雜訊。

每張靜態畫面的生成時間從很快到「夠去補一杯咖啡」不等，視機器狀況而定。我每個場景生成 8–12 張候選圖，然後嚴格篩選到 2 張。如果我無法快速做出選擇，那就代表提示詞還不夠精準——回到 GLM-5 做小幅修改，而不是繼續瘋狂生圖。

步驟三：WAN 2.5 / Seedance 根據靜態畫面生成影片

這個部分是我通常迷失方向的地方：動態選項太多了。我將自己限制在兩種模式：輕微視差和緩慢攝影機移動。WAN 2.5 在視差表現上相當自然。Seedance 則在微小動作上表現更好，例如蒸氣飄散和柔和的焦距偏移。

從靜態圖到動態影像的交接清單：

以目標解析度匯出乾淨的 PNG（測試時用 1080x1920）。
提供精確的動態備註（例如：「2–3° 向前推軌，保持馬克杯把手在三分之一處，適合循環的蒸氣飄移」）。
將時長上限設為 6–8 秒。較長的片段容易變得模糊，且容易暴露模型的瑕疵。

意外發現：

紋理閃爍。粗顆粒的釉面作為靜態圖看起來很美，但在動態中會產生雜訊。當我知道要做動畫時，我會在步驟二中降低紋理強度。
邊角變形。置中的構圖更能維持穩定；偏軸的馬克杯會像橡皮一樣彎曲。

最好的執行結果是渾然天成的。當它運作良好時，我不再思考模型本身，只是靜靜地看著光線呼吸。當它失敗時，往往崩潰得很快——通常是因為我要求了太多動態。

步驟四：GLM-5 審核輸出並提出迭代建議

我讓 GLM-5 作為一雙冷靜的第二雙眼睛回到流程中。我請它：

將最終片段與原始 brief 進行比對。
標記不符之處（色調、氛圍、限制條件）。
每個片段只提出一個小修改建議，而非五個。

這比我預期的更有幫助。GLM-5 始終能發現色彩偏移。在某次執行中，它指出藍綠色點綴在溫暖光線下顯得過冷——稍微調整背景色調後就解決了這個問題。

但它有時也會過度介入，建議加入新的道具或文字疊加。我設定了一條規則加以反制：「不得使用新的名詞。只調整光線、色彩或動態強度。」這讓迭代方向保持踏實。

這裡的循環很快：一輪備註，一輪修正。如果還是不滿意，我就把這個概念擱置，而不是繼續死磕。這種克制讓流水線保持了精簡。

完整程式碼（Python，WaveSpeed SDK）

我讓流程協調保持簡單。一個 Python 腳本透過幾個小型輔助函式將各步驟串聯起來：

一個 Brief 類別，儲存主體、場景、風格、動態、限制條件。
一個 glm5() 輔助函式，負責格式化提示詞並將場景卡片解析為字典。
一個 images() 輔助函式，使用 FLUX 或 Seedream 呼叫 WaveSpeed，並傳入種子值、步驟數和負向提示詞。
一個 video() 輔助函式，將靜態圖連同動態備註交給 WAN 2.5 或 Seedance 處理。
一個 review() 輔助函式，將縮圖或短 GIF 回饋給 GLM-5 以進行一致性檢查。

讓它保持穩定的兩個細節：

我以確定性的路徑將結果寫入磁碟：run_id/scene_01/flux_seed1234.png。這讓回溯變得容易。
我在輸出旁邊用一個小型 YAML 檔案記錄參數。當某個片段效果很好時，我能清楚地知道原因。

我不在這裡貼出程式碼，以免這篇文章變成程式碼堆貼。上面的架構已經足夠讓你用自己的技術棧重建它。如果你已經在使用 WaveSpeed，關鍵就在於決定在哪裡鎖定隨機性、在哪裡允許漂移。

10 個素材的成本分析

成本因供應商和模型設定而差異很大，因此請將此視為我測試的實際範圍，而非保證。這裡的 10 個素材是指 10 個短版豎向片段（每個場景一個），每個場景有 8–12 張靜態候選圖。

GLM-5 提示詞處理和審核：輕量。GLM-5 API 定價為輸入 $1.00/M、輸出 $3.20/M，明顯低於 Claude Opus 4.6（輸入 $5/M、輸出 $25/M）。在我的執行中，每個素材使用了約 2–3 次簡短互動加上一次審核。如果你採用按用量計費，10 個素材通常只需幾美元。
圖像生成：主要的浮動因素。在中等步驟數、每個場景 8–12 張候選圖的情況下，按推論計費方案下，我看到每個素材的成本落在中到高個位數美元。如果你在自己的 GPU 上批次處理，成本會更低。
影片生成：同樣浮動。簡單的視差片段成本較低；物理動態較多的片段成本較高。根據我的記錄，這與每個素材的圖像成本相近，有時略高。

10 個素材的粗略總成本，混合模型、保守設定：如果完全使用雲端並進行充足的變體嘗試，大約在低三位數美元；如果自行托管圖像步驟、只為動態影像付費，則會明顯更低。如果嚴格控制——每個場景 6 張候選圖而非 12 張、一次動態生成——可以削減約三分之一。如果追求大量變體，成本很快就會翻倍。種子鎖定和小幅迭代規則有助於控制費用。

延伸：加入 LoRA、放大處理、批次處理

在基礎流程穩定之後，我嘗試了幾個擴展。

品牌質感 LoRA：我為陶瓷釉面和背景紙材訓練了一個小型點綴包。它有助於在不同場景之間保持材質的一致性。訣竅在於適度的權重——LoRA 過強會把所有東西都拉向同一種風格。
輕度放大處理：我只在動態影像生成後進行放大，而非之前。預先放大會讓瑕疵更加明顯。動態生成後再用輕量、注重細節保留的模型進行放大，能讓邊緣保持乾淨，而不會在馬克杯上憑空製造出毛孔。
批次處理：我加入了一個佇列，讓每個概念作為一個單元移動，不混合來自不同 brief 的步驟。聽起來很嚴格，但它讓我避免了「再試一次就好」的無底洞。

有幾件事我沒有保留：

在流水線中內建自動加字幕。這會把視覺效果往「內容」方向拉，而不是「會動的圖像」。我在流水線外部進行字幕處理，更接近發布時才做。
激進的風格混搭。在格線預覽時看起來很好，但在動態影像中顯得疲憊。

這個流程適合的人：喜歡可預測路徑和穩定小幅提升的創作者。不適合的人：追求視覺震撼或高變異藝術創作的人。這完全合理。

我著手讓這個 GLM-5 創意流水線變得更安靜，而不是更聰明。在狀態好的日子裡，它確實如此：一個馬克杯、一束光線，還有比平時少打開的分頁。我很滿意。

我們要做什麼（端到端總覽）

步驟一：GLM-5 根據 brief 生成場景描述

步驟二：透過 WaveSpeed 使用 FLUX / Seedream 生成圖像

步驟三：WAN 2.5 / Seedance 根據靜態畫面生成影片

步驟四：GLM-5 審核輸出並提出迭代建議

完整程式碼（Python，WaveSpeed SDK）

10 個素材的成本分析

延伸：加入 LoRA、放大處理、批次處理

相關文章

Claude Code 原始碼洩露：BUDDY、KAIROS 及所有隱藏功能完整解析

什麼是Claude Mythos？洩露資訊、Capybara等級及Anthropic的官方確認

什麼是 Claw Code？Claude Code 重寫解析

什麼是Qwen3.5-Omni：功能、版本與API存取

PixVerse V6 Extend 現已登陸WaveSpeedAI

PixVerse V6 Image-to-Video現已登陸WaveSpeedAI