WaveSpeedAI 上的 Qwen-Image：銳利文字呈現與精確編輯

我們很高興宣佈 Qwen-Image（一個下一代文本轉圖像生成模型）現已在 WaveSpeedAI 上線。Qwen-Image 是一個前沿的 20B MMDiT 圖像基礎模型，代表了 AI 動力圖像生成和編輯的重大飛躍，特別是在複雜文字呈現和圖像修改過程中保持一致性方面表現卓越。

革命性的文字呈現能力

Qwen-Image 在生成圖像中的文字呈現方面設立了新標準，解決了 AI 圖像生成中最持久的挑戰之一。該模型在呈現複雜文字元素方面表現出卓越的能力，包括多行佈局、段落級內容和精細細節，具有非凡的準確性。 Qwen-Image 的突出之處在於其處理字母語言（如英文）和表意文字語言（如中文）的複雜方式。這種雙語優勢是通過以下方式實現的：

一個包括大規模收集、篩選、標註、合成和平衡的綜合數據管道
一個進化的訓練策略，從非文本到文本呈現，從簡單到複雜的文本輸入逐步進展
一個課程學習方法，逐步擴展到段落級描述其結果是前所未有的文字呈現保真度，明顯超越現有模型，特別是在生成具有挑戰性的中文文本方面。

精確的圖像編輯與無與倫比的一致性

除了文字呈現外，Qwen-Image 在圖像編輯任務上也表現卓越，在整個修改過程中保持語義一致性和視覺逼真度。這是通過包含以下內容的增強型多任務訓練範式實現的：

傳統的文本轉圖像 (T2I) 功能
文本圖像轉圖像 (TI2I) 編輯功能
圖像轉圖像 (I2I) 重構技術該模型的創新雙編碼機制分別通過 Qwen2.5-VL 處理原始圖像以獲得語義表示，並通過 VAE 編碼器進行重構表示。這種方法使編輯模塊能夠在保留語義意義和保持視覺保真度之間達到最佳平衡。

跨基準的最先進性能

Qwen-Image 在多個公開基準上展示了卓越的性能，將自己確立為圖像生成和編輯的領先基礎模型：

通用圖像生成：在 GenEval、DPG 和 OneIG-Bench 上取得頂級成果
圖像編輯：在 GEdit、ImgEdit 和 GSO 基準上表現出色
文字呈現：在 LongText-Bench、ChineseWord 和 TextCraft 上獲得傑出成績該模型的多功能性擴展到各種風格和用例，使其非常適合創建插圖、海報、幻燈片和其他需要精確文本集成和一致編輯功能的視覺內容。