← 部落格

Z-Image-Base vs Z-Image-Turbo:品質、多樣性與成本比較

Z-Image-Base vs Turbo 正面交鋒比較:CFG/負面提示詞支援、生成速度、圖像多樣性、定價($0.01 vs $0.005),助您選擇最適合的模型。

2 min read
Z-Image-Base vs Z-Image-Turbo:品質、多樣性與成本比較

嗨,大家好,我是 Dora。哈哈,這一切始於週二晚上的一個小麻煩:一張橫幅圖片在我需要清晰文字和銳利邊緣時,輸出結果總是略顯模糊。過去幾週,我在 Z-Image-Base 和 Z-Image-Turbo 之間憑感覺切換。那天晚上,光憑感覺已經不夠了。於是我撥出一個小時,又一個小時,最後花了整整一週,在幾個簡單的限制條件下,對兩個模型跑了相同的提示詞。

這不是一篇評測文章,而是我在日常工作中的觀察紀錄:投影片標題、輕量社群圖片、產品頁面的概念圖,以及幾份分鏡腳本。如果你已經同時應付太多工具,只想知道 Z-Image-Base 和 Z-Image-Turbo 究竟差在哪裡,這裡是簡短而謹慎的版本。

功能比較總覽

CFG 支援比較

我保持提示詞完全相同,只改變無分類器引導(CFG)的數值。使用 Base 時,將 CFG 從 5 調高到 9,構圖會變得更緊湊,並忠實呈現提示詞,同時不會壓縮風格空間。超過 11 以後,Base 開始出現過度擬合的跡象,元素變得僵硬,但還不算崩潰。

Turbo 的表現則不同。CFG 低於 6 時,畫面會漂移——圖像很好看,但有時對客戶工作來說太「有創意」。從 7 到 8,Turbo 會「咬合」到位,對齊效果良好,漂移減少;但超過 9 之後,它會迅速變脆。我看到高光過曝、暗部剪裁,感覺模型在為了取悅文字而過度修正,而非取悅眼睛。我週三的筆記寫道:「Turbo 甜蜜點:7–8。Base:6–9,容錯範圍更寬。」

為何重要:如果你習慣透過微調 CFG 來迭代,Base 提供了更寬廣、更平穩的範圍。Turbo 則要你儘早選定方向並堅持下去。

負面提示詞支援

我不太依賴負面提示詞,但它們有助於修剪奇怪的裝飾、多餘的手、雜亂的標誌和文字雜訊。Base 能夠遵守輕量的負面提示(「no watermark」、「no border」),同時不破壞其他細節,感覺像是乾淨地做了減法。

Turbo 對負面提示的反應非常強烈。「No text」有時會軟化我實際想要的附近字形元素(例如圖案、遠處的招牌)。當我把負面提示的語氣調輕(「minimize text artifacts」),Turbo 才表現正常。這個經驗提醒我,撰寫負面提示時,語氣強度要與目標風格相匹配,尤其是使用 Turbo 時。

參考圖像引導

我測試了兩種模式:鬆散靈感(色票與版面提示),以及接近匹配(比例很重要的產品模型圖)。使用 Base 時,參考圖像就像一隻穩定的手,它會借用色盤和大致版面,同時為提示詞驅動的風格留有空間,非常適合情緒板。

Turbo 使用相同參考圖時,則傾向模仿。對於接近匹配的任務,這很有幫助:即使在較少步驟下,產品角度和光線也能更緊密地跟隨參考。但在探索性工作中,Turbo 急於跟隨的特性,有時會使多次嘗試之間的變化趨於扁平。

如果你的工作流程以參考圖像作為引導軌道,Turbo 很容易操控。如果你想要超越簡單參考引導的更嚴格結構控制,這份簡短的 Z-Image-Turbo ControlNet 指南 說明了如何更精確地鎖定構圖。

採樣步數差異

我依照文件和介面中記載的預設值:Base 50 步,Turbo 8 步。Z-Image-Turbo 由阿里巴巴的 Tongyi-MAI 發布,僅需 8 個採樣步驟,透過 Decoupled-DMD 蒸餾技術,在資料中心 GPU 上實現次秒延遲,同時能在 16 GB VRAM 的消費級顯卡上運行。我嘗試將 Base 降至 30 步,Turbo 增至 12 步。Base 在 30 步時,布料和植物的微對比有所損失——不算戲劇性,但在列印尺寸的輸出中足以察覺。Turbo 在 12 步時穩定性略有提升(邊緣小瑕疵減少),但構圖變化不大。

實際上:如果你重視「最後 10%」的細節,Base 的 50 步是值得的。如果你主要使用較小畫布或社群裁切尺寸,Turbo 的 8 步已經夠用——比我的大腦切換情境還快,這本身就有其價值。


畫質比較

細節豐富度

我進行了幾項微測試:金屬材質、逆光髮絲,以及中等尺寸的襯線文字。Base 始終產出更豐富的微細節。金屬的各向異性更清晰;髮絲看起來較不模糊;陰影保持柔和漸層而非色帶分割。在較大畫布(2048 px)上,縮放至 100% 時,Base 的表現更為穩定。

Turbo 並不差,只是感覺針對「乍看很好」進行了調優。在手機螢幕尺寸下,它的圖像看起來飽滿且完整。近看則會發現一些平滑處理,微小元素也更早合併。對於網頁主視覺圖和投影片,Turbo 完全勝任。對於列印或緊密裁切,Base 勝出。

風格多樣性

我預期 Base 會是更通才的模型,但 Turbo 在短時間迭代中讓我驚喜。隨著提示詞的小幅改動,它能快速切換風格——從照片到線條藝術再到柔和水彩——幾乎沒有遺留效果。這在我需要為一份簡報快速產生多種變體時非常有幫助。

然而,在較長的工作階段中,Base 涵蓋的範圍更廣。細微的措辭變化能帶來全新的視覺效果,同時不失去品質。我週四的筆記:「Base 探索得更深,Turbo 探索得更快。」如果你喜歡漫遊然後逐步精煉,Base 會獎勵耐心。如果你需要快速取得一個光譜的變體,Turbo 能做出令人信服的第一輪。

文字渲染能力

兩個模型都不是專用的文字渲染器,我不會把廣告活動押注在上面。即便如此,我還是嘗試了短詞(3–6 個字母)、高對比、簡單字型。

Base 在渲染簡單的大寫字母時更為可靠,尤其是在 50 步時。在 1024 px 下,我能勉強呈現出可用的 LOGO 或 SALE。Turbo 傾向於彎曲或遺漏字母,特別是在較小尺寸時。當我將 Turbo 調至 12 步並簡化提示詞後,效果有所改善,但仍未達到 Base 的水準。

在兩個模型中都有幫助的解決方案:在提示詞描述中,於文字區域後方加入一個細薄的純色背景塊。這似乎能降低模型對字形進行風格化的衝動。實際備注:對於文字是關鍵的素材,我仍然在生成後再合成真實文字。


速度與延遲

Base:約 3–5 秒(50 步)

在有線連線、歐洲中部時間晚間測量。Base 在約 120 次生成中,1024 px 圖像於 50 步的平均時間為 3.6–4.8 秒。在某個時段(晚間 9 點左右)出現了峰值至 6–7 秒的情況,但很快趨於穩定。等待時間並不困擾我,因為我通常會批次提示詞,一次統一審閱。

兩點小備注:

  • 感知速度很重要。Base 更穩定的計時讓我進入了一種節奏:撰寫 → 排隊 → 喝茶 → 審閱。這種節奏能減少情境切換的疲勞。
  • 如果我降至 30 步,平均節省約 1.2 秒,但品質的損失對於可能重複使用的素材來說並不划算。

Turbo:小於 1 秒(8 步)

Turbo 令人驚訝。即使在較忙碌的時段,大多數圖像在 1024 px 下的生成時間為 400–800 毫秒。這種速度鼓勵我在撰寫提示詞的同時進行內嵌迭代。調整一個措辭,幾乎立即就能得到回饋。

這並不總是節省掛鐘時間——有時正因為能點擊,我反而點得更多——但它確實降低了「尋找方向」工作的心理負擔。對於快速分鏡腳本或縮圖,那種近乎即時的感覺讓流程更加輕鬆。唯一的代價是:快速的結果讓我更容易接受「夠用就好」,這對草稿來說無妨,但對最終成品則有風險。


成本分析

Base:每張 $0.01

以一美分一張的價格,我在這次測試批次的 111 張圖像中花費了 $1.11。如果我每週製作概念圖(假設 400 張),大約是 $4。使用 Base 的真正成本與其說是金錢,不如說是耐心——每張圖多等幾秒,在密集作業時累積起來是相當可觀的。

Turbo:每張 $0.005

半美分一張聽起來微不足道,直到你乘以倍數才感受到差異。我為一份投影片製作的 250 個快速變體花了 $1.25。如果你在產品內部進行功能原型設計(大量測試截圖),Turbo 對預算和 CI 管線更為友好。

純粹從成本角度比較 Z-Image-Base 和 Z-Image-Turbo 過於簡化,但輪廓是清晰的:Turbo 適合探索,成本更低;Base 仍然夠便宜,適合收尾。對我有幫助的方式:用 Turbo 做 80% 的漫遊,然後切換到 Base 處理要保留的成果。


決策樹選擇

以下是我到週五發現自己在使用的選擇路徑。這不是通用的,只是讓我保持冷靜和效率的那一套。

  • 我需要在一分鐘內確定方向嗎?Turbo。我會寫一個較寬鬆的提示詞,CFG 設為 7–8,快速瀏覽 6–10 個結果。
  • 我需要能通過 100% 裁切或列印的細節嗎?Base。保持 50 步,CFG 6–9,讓它渲染,不要分心。
  • 我使用參考圖像作為引導軌道(匹配角度、光線、比例)嗎?Turbo。它跟隨得更緊密。
  • 我使用參考圖像作為氛圍參考(顏色、感覺、大致版面)嗎?Base。它留有更多呼吸空間。
  • 圖像中的文字重要嗎?Base。之後我仍然會加上真實文字。
  • 我受成本或配額限制,只需要大量安全變體嗎?Turbo。對預算友好,容易捨棄。
  • 我正在使用精細的負面提示進行迭代(去除一個元素而不使其他元素變暗)嗎?Base。它的減法更溫和。

如果你偏好一眼就能判斷的規則,用於 Z-Image-Base 和 Z-Image-Turbo:Turbo 用於尋找;Base 用於保留。不是每次都如此,但頻率高到足以讓我信任這個規則。

最後一個小觀察:速度誘惑我過早做決定。品質邀請我多看一眼。有些日子我需要那種推力;其他日子我需要那個停頓。你的工作可能偏向某一邊。如果你處於中間地帶,就用 Turbo 起草,用 Base 定稿。