可重現基準測試：Qwen Image 2512 vs SDXL vs FLUX 文字在圖像中的表現

嗨，各位，我是Dora。最近我一直在進行文字渲染基準測試，將Qwen Image 2512、SDXL和FLUX進行對比。我花了三週時間測試文字內圖像生成，因為我一直看到有人聲稱*「這個模型終於解決了文字渲染問題。」*這些聲稱聽起來很大聲。但證據卻很薄弱。

所以我用Qwen Image 2512、SDXL和FLUX這三個人們不斷比較的模型建立了一個可重現的基準測試。我想看看當你要求它們渲染海報、菜單和混合版面時，實際會發生什麼。不是精選的例子。不是行銷截圖。只是對相同提示進行的一致測試。

為什麼可重現的基準測試很重要

我看到的大多數比較都只展示單一示例。一張來自模型A的漂亮海報，一張來自模型B的破損標誌。這只能告訴你曾經發生過一次——而不是可靠地會發生什麼。

我需要了解權衡。SDXL在什麼時候會遇到困難？FLUX在哪裡表現出色？當你用長文字或複雜版面推動Qwen Image 2512時，它實際上能提供什麼？

根據Hugging Face的模型文檔，Qwen Image 2512改進了文字渲染準確度和版面質量，超過10,000輪盲目評估將其列為領先的開源模型。同時，社群測試發現FLUX在文字渲染方面明確擊敗SDXL，在每個測試圖像中生成正確的文字，而SDXL則力不從心。但這些評估沒有回答我特定的問題：在海報版面、菜單文字和縮圖圖形方面會發生什麼？

基準測試設置

我使用相同的硬體測試了所有三個模型——NVIDIA RTX 4090配24GB VRAM。每個模型都用推薦設置運行，以避免不公平的限制。

跨模型使用相同提示集

總共20個提示，組織成四個類別。每個提示都指定了確切的文字內容、版面要求和視覺風格。我對每個模型運行每個提示三次以捕捉不一致性。

我沒有為FLUX使用負面提示，因為FLUX使用流匹配而不是無分類器引導，這意味著它不支援負面調節。為了保持比較公平，我對所有模型都跳過了負面提示。

相同的宽高比和參數

每個測試都使用1024×1024解析度。

SDXL以30個步驟和CFG縮放7運行
FLUX Dev使用20個步驟和引導縮放5
Qwen Image 2512以28個步驟和引導縮放5運行，社群測試表明這在質量和提示遵守之間達到平衡

生成時間差異很大。SDXL用了約13秒生成四張圖像，而FLUX Dev需要57秒——大約是四倍長。Qwen Image 2512介於兩者之間，在優化設置下每個圖像約5秒。

提示集（開源）

我分享完整的提示集是因為可重現性需要看到實際的測試。這些不是完美的提示——它們是我實際遇到的現實場景。

為了使提示級比較更容易重現和擴展，我們也在不同的執行環境中測試相同的提示集，包括WaveSpeed，它為運行多個圖像模型提供了一致的介面，具有可比較的參數。

與此處的所有結果一樣，輸出仍對提示措詞、步驟數和引導縮放敏感——因此結果應理解為定向性而非絕對性。

海報提示（5個示例）

「事件海報，粗體標題「夏日節」在頂部，副標題「7月15-17日」下方，三個列出活動的項目符號點，頁腳文字「在summerfest.com註冊」」
「電影海報風格，大文字「THE LAST HORIZON」居中，底部較小文字「Coming Soon」」
「工作坊公告，標題「在5天內學習Python」、日期和時間詳情、講師名字、報名資訊」
「音樂會海報，樂隊名稱以裝飾字體、場地詳情、票價」
「書籍封面版面，作者名字、襯線字體標題、副標題、出版社標誌」

縮圖提示（5個示例）

「YouTube縮圖，大文字「TOP 5 TIPS」和小徽章說「NEW」」
「產品縮圖顯示「50% OFF」突出顯示，較小的「限時」標籤」
「課程縮圖，標題「進階AI」和難度指標「專家級」」
「食譜縮圖，菜名和「30分鐘準備好」徽章」
「新聞縮圖，標題和「突發」標籤」

菜單/標誌提示（5個示例）

「咖啡館菜單板，五個項目、價格和「每日特餐」標題」
「餐廳標誌顯示「現在營業」，下方列出營業時間」
「店面標誌，「盛大開幕」和日期資訊」
「咖啡館粉筆板菜單，三個部分和裝飾邊框」
「零售標誌，「清倉特價」和百分比折扣」

混合內容提示（5個示例）

「信息圖，標題、三個編號步驟和摘要框」
「社群媒體帖子，引語文字疊加在漸變背景上」
「演示幻燈片，項目符號點和頁腳文字」
「雜誌版面，標題、正文文字預覽和頁碼」
「廣告，產品名稱、功能列表和號召性用語」

評估標準

我使用1–5縮放對四個維度對每個輸出進行評分。我沒有使用OCR自動化，因為我想捕捉純字符識別會遺漏的版面問題。

文字可讀性（1–5）

你能不皺眼睛地讀出每個詞嗎？字符是否正確形成？字母是否模糊或出現偽影？

**評分5：**每個字符都清晰清楚。沒有拼寫錯誤、沒有字母合併、沒有遺漏筆畫。
**評分3：**大多數文字可讀，但有輕微問題——輕微模糊、偶爾字符混淆。
**評分1：**文字基本上無法辨認或包含重大拼寫錯誤。

版面準確度（1–5）

文字是否出現在提示指定的位置？是否尊重層級——標題比正文文字更大、元素之間適當間距？

**Qwen Image 2512在這裡給我留下深刻印象。**根據測試文檔，它改進了版面質量和多模態組成，減少了複雜設計的重試次數。

視覺保真度（1–5）

除了可讀文字，整體圖像看起來是否連貫？字體是否適合背景？文字是否自然地與背景元素集成？

差異在這裡變得很明顯。有些模型在不連貫的背景上渲染完美的文字。其他的創建了漂亮的圖像，卻有破損的文字。

整體美學（1–5）

你實際上會使用這個輸出嗎？它看起來完成了還是需要大量後處理？

結果摘要

在180個總生成（20個提示×3個模型×3次嘗試）之後，出現了令我驚訝的模式。

Qwen Image 2512勝出的地方

超過50個字符的海報版面。當我要求多個文字塊的事件海報時，Qwen Image 2512始終正確放置元素。即使使用更長的字符串，文字也保持清晰。

該模型強調文字渲染質量，具有更清晰的字符、穩定的行距和可預測的對齐——對行銷視覺和設計草稿特別有價值。我特別注意到這一點，尤其是中英文混合內容，儘管我的測試重點是英文。

速度值得注意。每個圖像5秒意味著我可以快速迭代而不損失質量。在通過多次嘗試細化設計時，這很重要。

SDXL勝出的地方

**藝術風格和快速迭代。**當提示強調風格而非文字精確性——「復古海報美學」或「復古標誌外觀」——SDXL提供了更一致的藝術解釋。 SDXL的雙架構方法採用基礎和細化模型，為其提供了強大的美學性能，特別是對於風格化內容。生態系統優勢也很重要：更多LoRA、更多ControlNet選項、更多社群資源。

生成速度給了SDXL粗糙草稿的優勢。13秒生成四張圖像勝過在只是探索概念時等待一分鐘。

FLUX勝出的地方

**短文字與複雜提示。**對於縮圖和簡單標誌，FLUX Dev很少出現拼寫錯誤。社群測試顯示FLUX擅長字距、間距和字體風格再現，產生與專業排版相匹配的清晰文字。

T5編碼器似乎有所不同。FLUX使用Google語言模型的T5技術，改進了複雜提示的理解和文字渲染質量。

但FLUX在較長文字塊上遇到了困難。在約30個字符之後，準確度明顯下降。獨立測試證實，雖然FLUX相比早期模型有所改進，但輸出通常未能達到行銷材料中無瑕疵示例的水平。

按使用情況的建議

如果你生成帶有多個文字元素的海報並需要可靠的版面：Qwen Image 2512的表現比我預期好。28步驟生成提供了很好的質量，而不需要過度的等待時間。

如果你正在原型化設計，風格比完美文字更重要：SDXL給你速度加上藝術靈活性。你無論如何可能會在後期製作中修復文字。

如果你創建縮圖或短形標誌，文字準確度至關重要：FLUX Dev提供了最清潔的短形文字。只是不要要求它渲染段落。

對於混合工作流，我發現自己在不同階段使用不同模型。SDXL用於快速探索視覺方向。Qwen Image 2512當版面複雜性增加時。FLUX Dev當最終文字需要對短內容進行像素完美時。最讓我驚訝的不是哪個模型整體獲勝——因為沒有單一贏家。而是意識到「文字內圖像」不是一個問題。它至少是三個：字符準確度、版面精確度和美學集成。不同的模型解決不同的部分。