再現可能なベンチマーク: Qwen Image 2512 vs SDXL vs FLUX のテキスト・イン・イメージ比較

Doraです、皆さんこんにちは。最近、Qwen Image 2512、SDXL、FLUXのテキストレンダリングベンチマークを実施しています。過去3週間、テキスト・イン・イメージ生成をテストしてきました。なぜなら、「このモデルがついにテキストレンダリングを解決した」という主張を繰り返し目にしていたからです。主張は大きく聞こえるのに、証拠は薄いように感じられました。

そこで、Qwen Image 2512、SDXL、FLUXという3つのモデルを使って、再現可能なベンチマークを構築しました。ポスター、メニュー、混合レイアウトなどを描画するよう求めたときに、実際に何が起こるかを見たかったのです。厳選された例ではなく、マーケティングのスクリーンショットでもなく、同じプロンプトでの一貫したテストだけです。

なぜ再現可能なベンチマークが重要なのか

これまで見た比較の大部分は単一の例を示しています。モデルAからの美しいポスター、モデルBからの壊れた標識。それは何かが一度起こったことを伝えていますが、確実に何が起こるかは伝えていません。

トレードオフを理解する必要がありました。SDXLはどこで苦労するのか。FLUXはどこで輝くのか。Qwen Image 2512は長いテキストや複雑なレイアウトでプッシュされたときに何を実際に提供するのか。

Hugging Faceのモデルドキュメンテーションによれば、Qwen Image 2512はテキストレンダリング精度とレイアウト品質を改善し、10,000回を超えるブラインド評価で主要なオープンソースモデルとして認識されています。一方、コミュニティテストではFLUXはSDXLと比べてテキストレンダリングで明らかに優れており、各テスト画像で正しくテキストを生成しながらSDXLが苦労していることが判明しました。しかし、これらの評価は私の具体的な質問に答えていませんでした。ポスターレイアウトとメニューテキストとサムネイルグラフィックスではどう違うのか？

ベンチマーク設定

3つのモデルを同じハードウェア（NVIDIA RTX 4090で24GB VRAM）を使ってテストしました。各モデルは不公正なハンディキャップを避けるため、推奨設定で実行しました。

モデル間で同じプロンプトセット

合計20個のプロンプトで、4つのカテゴリに整理されています。各プロンプトは正確なテキスト内容、レイアウト要件、視覚スタイルを指定しました。不一貫性を検出するために、モデルごとに各プロンプトを3回実行しました。

FLUXについては負のプロンプトを使いませんでした。FLUXはフロー・マッチングを使用するため、classifier-free guidanceをサポートしていないため、負のコンディショニングをサポートしていません。比較を公正にするために、すべてのモデルで負のプロンプトをスキップしました。

同じアスペクト比とパラメータ

すべてのテストで1024×1024解像度を使用しました。

SDXLは30ステップ、CFGスケール7で実行
FLUX Devは20ステップ、guidance scale 5を使用
Qwen Image 2512は28ステップ、guidance scale 5で実行しました。コミュニティテストでは、これが品質とプロンプト忠実度のバランスが取れていることが示唆されています

生成時間は大きく異なりました。SDXLは4つの画像に約13秒かかり、FLUX Devは57秒かかりました。これは約4倍長いです。Qwen Image 2512は最適化された設定で画像あたり約5秒でその間に収まりました。

プロンプトセット（オープンソース）

再現性は実際のテストを見ることを必要とするため、完全なプロンプトセットを共有しています。これらは完璧なプロンプトではなく、実際に遭遇する現実的なシナリオです。

プロンプトレベルの比較を再現と拡張しやすくするために、異なる実行環境（WaveSpeedを含む）で同じプロンプトセットをテストしています。これは、複数のイメージモデルを実行するための一貫したインターフェースを提供し、比較可能なパラメータを備えています。

ここでのすべての結果と同様に、出力はプロンプト用語、ステップ数、guidance scaleに敏感なままです。そのため、結果は絶対的ではなく方向的として解釈されるべきです。

ポスタープロンプト（5つの例）

「上部に太字のタイトル『Summer Festival』、下に『July 15-17』、活動をリストアップ3つのポイント、フッターテキスト『Register at summerfest.com』のあるイベントポスター」
「大きなテキスト『THE LAST HORIZON』を中央に配置、下部に小さいテキスト『Coming Soon』のムービーポスタースタイル」
「見出し『Learn Python in 5 Days』、日付と時間の詳細、インストラクター名、登録情報を含むワークショップ公告」
「装飾的なフォントのバンド名、会場詳細、チケット価格を含むコンサートポスター」
「著者名、セリフフォントのタイトル、サブタイトル、出版社ロゴを含む本の表紙レイアウト」

サムネイルプロンプト（5つの例）

「大きなテキスト『TOP 5 TIPS』と『NEW』というバッジを含むYouTubeサムネイル」
「『50% OFF』を目立つように表示する商品サムネイル、より小さい『Limited Time』ラベル付き」
「タイトル『Advanced AI』と難易度表示『Expert Level』を含むコースサムネイル」
「料理名と『Ready in 30 min』バッジを含むレシピサムネイル」
「ヘッドラインと『BREAKING』タグを含むニュースサムネイル」

メニュー/標識プロンプト（5つの例）

「5つの品目、価格、『Daily Specials』ヘッダーを含むコーヒーショップメニューボード」
「『Now Open』と営業時間をリストアップしたレストラン標識」
「『Grand Opening』と日付情報を含むストア窓標識」
「3つのセクションと装飾的な境界線を含むカフェチョークボードメニュー」
「『Clearance Sale』とパーセンテージディスカウントを含む小売標識」

混合コンテンツプロンプト（5つの例）

「タイトル、3つの番号付きステップ、概要ボックスを含むインフォグラフィック」
「グラデーション背景に重ねられた引用テキストを含むソーシャルメディア投稿」
「箇条書きと下部テキストを含むプレゼンテーションスライド」
「ヘッドライン、本文テキストプレビュー、ページ番号を含む雑誌レイアウト」
「製品名、機能リスト、行動喚起を含む広告」

評価基準

各出力を1～5スケールで4つの次元でスコア付けしました。OCR自動化を使いませんでした。純粋な文字認識が見落とすレイアウト問題を検出したかったからです。

テキスト可読性（1～5）

すべての単語を目を細めずに読めますか？文字は正しく形成されていますか？文字は一緒にぼかされたり、アーティファクトを表示したりしていませんか？

スコア5： すべての文字がシャープで読みやすい。スペル間違い、文字の融合、欠落した笔画はありません。
スコア3： ほとんどのテキストは読みやすいが、軽微な問題を示しています。軽微なぼかし、時折の文字混乱。
スコア1： テキストはほぼ読めない、または大きなスペル間違いを含んでいます。

レイアウト精度（1～5）

テキストはプロンプトで指定されたとおりに表示されていますか？階層は尊重されていますか。ヘッダーが本文テキストより大きく、要素間に適切な間隔がありますか？

Qwen Image 2512はここで私を感動させました。 テスト文書によると、レイアウト品質とマルチモーダル合成を改善し、複雑な設計のリトライ数を削減します。

ビジュアル忠実度（1～5）

読みやすいテキスト以外に、全体的な画像は一貫性がありますか？フォントはコンテキストに適切ですか？テキストは背景要素と自然に統合されていますか？

ここで違いが明らかになりました。一部のモデルは矛盾した背景で完璧なテキストを描画しました。他のモデルは美しい画像を壊れたテキストで作成しました。

全体的な美しさ（1～5）

この出力を実際に使いますか？終わったように見えるか、それとも大幅な後処理が必要ですか？

結果概要

合計180生成（20プロンプト × 3モデル × 3回の試行）の後、私を驚かせるパターンが現れました。

Qwen Image 2512が勝つ場所

50文字以上のポスターレイアウト。複数のテキストブロックを含むイベントポスターを求めたとき、Qwen Image 2512は要素の配置を一貫して正しく行いました。テキストは長い文字列でもシャープなままでした。

このモデルはより明確な文字、安定した行間隔、予測可能な配置でテキストレンダリング品質を強調しています。マーケティングビジュアルと設計ドラフトに特に価値があります。中国語と英語の混合コンテンツで特にこれに気づきました。ただし、テストは英語に焦点を当てていました。

速度は目立ちました。画像あたり5秒は、品質を失わずに迅速に反復できることを意味しました。複数の試行を通じて設計を改善するときは問題です。

SDXLが勝つ場所

芸術的スタイルと高速反復。 プロンプトがテキスト精度より「レトロポスター美学」や「ヴィンテージ標識ルック」など、スタイルを強調する場合、SDXLはより一貫した芸術的解釈を提供しました。 SDXLの二重アーキテクチャアプローチはベースモデルとリファイナーモデルで、特にスタイル化されたコンテンツに対して強力な美学的パフォーマンスを提供します。エコシステムアドバンテージも問題になります。より多くのLoRA、より多くのControlNetオプション、より多くのコミュニティリソース。

生成速度はラフドラフト用にSDXLを有利にしました。4つの画像に13秒は、単なるコンセプトを探索しているときに1分待つより優れています。

FLUXが勝つ場所

複雑なプロンプトを含む短いテキスト。 サムネイルと単純な標識では、FLUX Devはスペルミスをめったにしませんでした。コミュニティテストでは、FLUXはカーニング、間隔、フォントスタイル複製で優れており、専門的な活字標準と一致するシャープなテキストを生成することが示されています。

T5エンコーダは違いを生じさせるようです。FLUXはGoogleの言語モデルからのT5テクノロジーを使用し、複雑なプロンプトとテキストレンダリング品質の理解を改善します。

しかし、FLUXはより長いテキストブロックで苦労しました。約30文字の後、精度は顕著に低下しました。独立したテストは、FLUXがマーケティング資料の完璧な例より改善を示していますが、出力はしばしば非常に短いです。

ユースケース別の推奨事項

複数のテキスト要素を含むポスターを生成し、信頼できるレイアウトが必要な場合：Qwen Image 2512は期待以上にこれを処理しました。28ステップ生成は過度な待機時間なしで良い品質を提供しました。

設計をプロトタイプすると、完璧なテキストより効果が重要な場合：SDXLは速度と芸術的な柔軟性を提供します。おそらく後処理でテキストを修正します。

サムネイルまたは短い標識を作成し、テキスト精度が重要な場合：FLUX Devは最もクリーンな短い形式のテキストを提供しました。段落を描画するよう求めないでください。

混合ワークフローの場合、異なるステージで異なるモデルを使用していることに気づきました。ビジュアル方向をすばやく探索するSDXL。レイアウト複雑さが増加したときのQwen Image 2512。FLUX Devは、短いコンテンツのピクセル完璧な最終テキストが必要な場合。私を最も驚かせたのは、どのモデルが全体的に勝ったかではありませんでした。唯一の勝者は存在しないからです。「テキスト・イン・イメージ」は1つの問題ではないことに気づきました。それは少なくとも3つです：文字精度、レイアウト精度、美学的統合。異なるモデルが異なる部分を解決します。