Z-Image-Base vs Z-Image-Turbo：品質・多様性・コストの徹底比較

こんにちは、みなさん。Doraです。笑、始まりは火曜日の夜のちょっとしたつまずきでした。クリーンなテキストとシャープなエッジが必要なのに、バナー画像が少しぼやけて出来上がってしまったんです。数週間、Z-Image-BaseとZ-Image-Turboを主に感覚で使い分けていました。でもその夜、感覚だけでは足りなかった。それで1時間、そしてもう1時間、そして週の残りを全部使って、いくつかのシンプルな条件のもとで両モデルに同じプロンプトを通し続けました。

これはレビューではありません。日常の作業中に気づいたことです。スライドのヘッダー、軽いSNS用画像、プロダクトページのコンセプトシート、そしていくつかのストーリーボード。ツールを抱えすぎていて、Z-Image-Base vs Z-Image-Turboが実際にどこで分かれるかだけ知りたいなら、ここに短くて丁寧なバージョンをお届けします。

機能比較の概要

CFGサポートの比較

プロンプトは同一のまま、クラシファイアーフリーガイダンス（CFG）だけを変えました。Baseでは、CFGを5から9に上げると、構図が引き締まりスタイルを殺さずにプロンプトへの忠実度が上がりました。11以上では、Baseが少し過学習気味に見え始め、要素が硬くなりましたが、壊れるほどではありませんでした。

Turboは違う挙動でした。CFG 6未満では流れてしまう。きれいな画像にはなるのですが、クライアント仕事には「クリエイティブすぎる」ことも。7〜8でTurboはぴたっとはまる。良いアライメント、迷いが少ない。しかし9を超えると急速に脆くなりました。ハイライトが飛び、シャドウがクリップされ、まるでモデルが目より言葉を喜ばせようと過剰補正しているみたいでした。水曜日のメモにはこう書いてある。「Turboのスイートスポット：7〜8。Base：6〜9、より寛容。」

なぜ重要か：CFGを少しずつ動かして反復するなら、Baseの方が広くて穏やかなレンジを提供します。Turboは早い段階でレーンを決めてそこに留まることを求めます。

ネガティブプロンプトのサポート

ネガティブプロンプトにはあまり頼りませんが、変な装飾、余分な手、迷い込んだロゴ、テキストの散らかりを削るのに役立ちます。Baseは軽いネガティブ（「ウォーターマークなし」、「ボーダーなし」）を他の詳細を崩さずに尊重しました。クリーンに引き算している感じでした。

Turboはネガティブを大きく聞いてしまいました。「テキストなし」が、実際には欲しかった近くのグリフっぽい形（模様、遠景の看板）まで和らげてしまうことがありました。ネガティブを弱めたところ（「テキストアーティファクトを最小化」）、Turboは素直になりました。この経験から、ネガティブはTurboを使うときは特に、望むスタイルと同じ強度の言葉で書くことを思い知らされました。

参照画像のガイダンス

2つのモードでテストしました。緩いインスピレーション（カラースウォッチとレイアウトのヒント）と、プロポーションが重要なプロダクトモックアップを使った近似マッチです。Baseでは、参照画像は安定した手のように働きました。パレットと大まかなレイアウトを借りながら、プロンプト主導のスタイルに余地を残す。ムードボードに向いています。

同じ参照でTurboは模倣に傾きました。近似マッチのタスクでは助かりました。プロダクトの角度や照明が参照により密に従い、ステップが少なくても。でも探索的な作業では、Turboの熱心な追随が複数の試みのバリエーションを平坦にすることがありました。

ワークフローで参照をレールとして使うなら、Turboは操舵しやすい。シンプルな参照ガイダンスを超えてより厳密な構造コントロールが必要なら、この短いZ-Image-Turbo ControlNetガイドで構図をより正確にロックする方法を説明しています。

サンプリングステップの違い

ドキュメントとUIに記載されたデフォルトを守りました。BaseはステップHOME50、Turboは8。AlibabのTongyi-MAIがリリースしたZ-Image-Turboは、Decoupled-DMD蒸留によりわずか8サンプリングステップで、データセンターGPUにおけるサブ秒レイテンシーを実現しながら、コンシューマー向け16GB VRAMカードに収まります。Baseを30ステップまで下げ、Turboを12ステップまで上げても試しました。30ステップのBaseは、布地や葉のマイクロコントラストを少し失いました。劇的ではないけれど、印刷サイズのエクスポートでは気づく程度には。12ステップのTurboは安定性が少し改善しました（小さなエッジのグリッチが減った）が、構図はあまり変わりませんでした。

実際のところ：詳細の「最後の10%」を重視するなら、50ステップのBaseはその価値を感じました。小さいキャンバスやSNSクロップがデフォルトなら、Turboの8ステップで十分で、頭を切り替えるより速い。それ自体に価値があります。

画質の比較

ディテールの豊かさ

いくつかのマイクロテストを実施しました。金属テクスチャ、逆光に映える髪の毛、中サイズのセリフテキスト。Baseは一貫してより豊かなマイクロディテールを生み出しました。金属はより明確な異方性を持ち、髪はぼやけが少なく、シャドウはバンディングの代わりに柔らかなグラデーションを保っていました。大きなキャンバス（2048 px）では、100%に拡大してもBaseの方が持ちこたえました。

Turboが悪かったわけではありません。「一目見て良い」感じに調整されているだけです。電話サイズでは、Turboの画像はパンチが効いて仕上がって見えました。近くで見ると、少しスムージングがあり、細かい要素が早めに溶け合っていました。ウェブのヒーロー画像やスライドにはTurboで十分。印刷やきついクロップにはBaseが勝ちました。

スタイルの多様性

Baseがジェネラリストだと思っていたのに、短いランではTurboが驚かせてくれました。小さなプロンプトの変更で素早くスタイルを切り替えます。フォトからライン画、柔らかな水彩へ、持ち越しがほとんどありません。デッキのバリエーションを素早く欲しいときに助かりました。

でも長いセッションでは、Baseの方が広い地平をカバーしました。わずかな言い回しの変化が、クオリティを失わずに新鮮な見た目を生み出しました。木曜日のメモ：「Baseは深く探索し、Turboは速く探索する。」少し彷徨って洗練させるのが好きなら、Baseは辛抱を報います。素早くスペクトラムが必要なら、Turboは信頼できる第一稿を作ります。

テキストレンダリング能力

どちらのモデルも専用のテキストレンダラーではなく、キャンペーンをそこに任せるつもりはありません。それでも、短い単語（3〜6文字）、高コントラスト、シンプルなフォントで試しました。

Baseはシンプルな大文字の単語をより確実に処理しました。特に50ステップで。1024 pxで「LOGO」や「SALE」をなんとか通用するレベルで出せました。Turboは文字を曲げたり落としたりしがちで、特に小さいサイズでは。Turboを12ステップに上げてプロンプトを簡略化すると改善しましたが、Baseには追いつきませんでした。

両方で助けになった回避策：プロンプトの説明でテキスト領域の後ろに細い単色の背景ブロックを追加すること。モデルが書体をスタイライズしようとする衝動を減らすようです。実際的なメモとして、テキストが鍵となるアセットには、生成後に本物のテキストを合成することを今でも続けています。

速度と遅延

Base：約3〜5秒（50ステップ）

CETの夜、有線接続で計測。Baseは約120回の生成で、50ステップの1024 px画像に平均3.6〜4.8秒かかりました。ある窓（午後9時頃）に6〜7秒のスパイクがありましたが、すぐに落ち着きました。待つことは気になりませんでした。普段はプロンプトをバッチにして一括レビューするからです。

小さな2つのメモ：

体感速度は重要です。Baseの安定したタイミングがリズムを作ってくれました。書く→キューに入れる→お茶を一口→レビュー。そのリズムがコンテキスト切り替えの疲労を減らします。
30ステップに落とせば平均約1.2秒節約できましたが、再利用するかもしれないアセットには画質の代償が見合いませんでした。

Turbo：1秒未満（8ステップ）

Turboは驚きでした。忙しい時間帯でも、1024 pxでほとんどの画像が400〜800 msで届きました。この速さがプロンプトを書きながらインラインで反復する気にさせてくれました。フレーズを調整してほぼ即座のフィードバックが得られます。

時計の時間を常に節約できたわけではありません。できるから余計にクリックすることもありましたが、「方向性を見つける」作業での精神的な負荷は下がりました。クイックなストーリーボードやサムネイルには、ほぼ即座の感触がプロセスを軽くしました。一つのトレードオフは：速い結果が「十分に良い」をより受け入れやすくさせること。ドラフトにはいいけど、最終版には危険です。