WaveSpeedAI Z Image Base現已登陸WaveSpeedAI

介紹 Z-Image Base：創意控制的終極文本轉圖像基礎模型

文本轉圖像 AI 領域剛剛迎來了一位強大的新競爭者。來自阿里巴巴通義實驗室（Tongyi-MAI）的 Z-Image Base，一個 60 億參數的基礎模型，現已在 WaveSpeedAI 上推出。與其蒸餾版本 Z-Image Turbo 不同，這款功能完整的模型提供完整的 CFG（無分類器引導）支持和負面提示功能——為創意工作者提供專業級圖像生成所需的精確控制。

什麼是 Z-Image Base？

Z-Image Base 是阿里巴巴突破性 Z-Image 模型系列的非蒸餾基礎版本。雖然 Z-Image Turbo 通過蒸餾犧牲用戶控制換取驚人的速度，但 Z-Image Base 保留了使細粒度創意控制成為可能的完整生成功能。

基於創新的 S3-DiT（單流擴散變壓器）架構，Z-Image Base 在統一序列中處理文本和圖像令牌，而不是使用單獨的流。這種架構方法改進了參數利用效率，簡化了跨模態對齊，從而實現了卓越的提示遵循性和逼真的輸出質量。

該模型系列一經發佈就在 AI 社區掀起波瀾，24 小時內下載量超過 50 萬次，迅速登上 Hugging Face 趨勢榜單榜首。Z-Image 榮獲 Artificial Analysis 文本轉圖像排行榜上排名第一的開源模型——這對於一個 60 億參數的模型與體積大許多倍的系統競爭來說，是一項了不起的成就。

主要功能

完整的 CFG 支持和負面提示

與在訓練期間「烘焙」引導的蒸餾模型不同，Z-Image Base 提供完整的無分類器引導控制。這意味著你可以：

使用負面提示明確排除不需要的元素，如「模糊、扭曲、低質量」
調整引導量以平衡提示遵循性和創意變化
實現蒸餾模型根本無法提供的生成過程精確控制

參考圖像引導

提供可選的參考圖像來影響生成輸出的構圖、風格或主題。強度參數（0-1）可讓你精確調整參考對結果的影響程度：

較低值（0.2-0.4）：輸出緊密跟隨參考
中等值（0.5-0.7）：參考和提示的平衡融合
較高值（0.8-1.0）：提示占主導，參考作為寬泛的靈感

微調就緒

Z-Image Base 專門設計用於解鎖社區驅動的微調和自定義開發。訓練自定義 LoRA 適配器以將特定視覺風格、角色或品牌美學編碼到可重複使用的權重中。這使其成為構建個性化圖像生成系統的理想基礎。

雙語文本渲染

Z-Image 的突出功能之一是其在英文和中文中的強大雙語文本渲染能力。行業基準顯示它在海報和文本圖像生成任務中優於許多競爭者。

卓越的價值

Z-Image Base 以每張圖像僅 $0.01 的價格提供優質品質，成本只有典型價格的一小部分——非常適合大量生成、快速原型製作和創意實驗。

使用案例

專業內容創建

營銷團隊可以生成風格和構圖精確控制的一致品牌圖像。參考圖像引導確保整個活動的視覺一致性，而負面提示消除常見的質量問題。

自定義模型開發

研究人員和開發人員可以使用 Z-Image Base 作為專業化微調模型的基礎。非蒸餾架構保留了 LoRA 訓練和自定義適配所需的所有鉤子。

快速原型製作

產品設計師和創意總監可以以最低成本快速迭代視覺概念。生成數十個變體來探索不同方向，然後再提交最終設計。

風格引導生成

藝術家和插畫家可以使用參考圖像在系列中保持一致的美學。強度控制提供了跟隨參考和允許創意自由之間的精確校準。

批量內容生成

內容創建者、電商團隊和社交媒體經理可以以實惠的價格生成大量圖像。低每張圖像成本和高質量的結合使 Z-Image Base 非常適合擴展視覺內容生成。

在 WaveSpeedAI 上開始使用

通過 WaveSpeedAI 使用 Z-Image Base 非常簡單。以下是使用 Python SDK 生成第一張圖像的方法：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/z-image/base",
    {
        "prompt": "A majestic snow leopard perched on a Himalayan cliff at golden hour, photorealistic, dramatic lighting",
        "negative_prompt": "blurry, distorted, low quality, oversaturated"
    },
)

print(output["outputs"][0])

對於參考圖像引導，添加圖像參數：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/z-image/base",
    {
        "prompt": "Professional headshot in the same style",
        "image": "https://your-reference-image.jpg",
        "strength": 0.6
    },
)

print(output["outputs"][0])

WaveSpeedAI 提供 Z-Image Base 具有你期望的性能特徵：快速推理、無冷啟動和透明定價。無論你是生成單張測試圖像還是通過自動化管道運行數千張，你都將獲得一致、可靠的結果。

獲得最佳結果的專業提示

使用描述性提示：Z-Image 在單一流中處理文本和圖像令牌，因此句子結構很重要。使用清晰的空間關係（「next to」、「behind」、「holding」）來指導構圖。
充分利用負面提示：由於 Z-Image Base 支持完整的 CFG，戰略性地使用負面提示。常見的添加如「blurry, distorted, extra limbs, watermark」可以顯著提高輸出質量。
從強度 0.6 開始作為參考：使用參考圖像時，0.6 提供了很好的平衡。向下調整以進行更接近的參考匹配，向上調整以獲得更多提示創意。
對迭代使用相同的種子：在調整提示時保持種子常數以迭代特定構圖，而無需每次都從頭開始。
啟用提示增強器：內置的提示增強工具可以自動改進你的描述以獲得更好的結果。