← 部落格

Qwen Image 2.0 現已登陸WaveSpeedAI

阿里巴巴的Qwen Image 2.0——排名第一的統一圖像生成與編輯模型——即將登陸WaveSpeedAI。以下是它帶來的功能以及為何值得關注。

2 min read

Qwen Image 2.0 即將登陸 WaveSpeedAI

阿里巴巴最新的圖像基礎模型將文字生成圖像與圖像編輯整合至單一 7B 參數架構——目前在 AI Arena 盲測人類評估排行榜上,於圖像生成與編輯兩個類別均奪得第一名

WaveSpeed 已托管完整的 Qwen Image 系列——Qwen-ImageQwen-Image-EditQwen-Image-Max,以及多個 LoRA 變體。Qwen Image 2.0 是下一個里程碑。


Qwen Image 2.0 的差異所在

生成與編輯合而為一

先前的 Qwen Image 版本採用獨立模型——一個負責從文字生成圖像,另一個負責編輯現有圖像。Qwen Image 2.0 將兩者合併為單一模型。生成圖像後即可進行編輯,全程透過同一端點完成。

涵蓋風格遷移、物件插入與移除、照片上的文字疊加、多圖合成,以及跨領域編輯(例如將插畫角色置入真實照片中)。

原生 2K 解析度

模型可原生生成最高 2048 x 2048 像素的圖像——而非經過放大處理。皮膚毛孔、織物紋理和建築細節均在生成過程中直接渲染,而非事後補強。

專業文字渲染

這是最亮眼的功能。Qwen Image 2.0 可直接依據提示詞渲染複雜的文字排版——PPT 投影片、資訊圖表、電影海報、日曆、資料圖表和漫畫。支援最長 1,000 個 token 的提示詞,精確處理中英文文字,並能依據正確透視將文字適配至不同表面。

更輕量、更快速

參數量從 v1 的 200 億降至 70 億,體積縮小近 3 倍,同時在所有基準測試中均超越前代。其架構為 8B Qwen3-VL 編碼器搭配 7B 擴散解碼器,專為高效推理而設計。


基準測試

基準測試Qwen Image 2.0GPT Image 1FLUX.1
DPG-Bench88.3285.1583.84
GenEval0.91
AI Arena ELO第一名(生成)
AI Arena ELO第一名(編輯)

AI Arena 採用盲測人類評估——評審在不知道哪個模型產生輸出的情況下並排比較結果。Qwen Image 2.0 在兩個類別中均居首位。


為何選擇 WaveSpeed

當 Qwen Image 2.0 在 WaveSpeed 上線後,您將獲得:

  • 無冷啟動——隨時保持熱機狀態的推理服務
  • 快速生成——針對生產工作負載優化的推理服務
  • 簡潔 API——沿用您熟悉的 wavespeed.run() 介面
  • 按圖計費——無需訂閱或管理 GPU

若您已在 WaveSpeed 上使用 Qwen Image 模型,升級路徑非常直覺。相同的 SDK、相同的工作流程,更強大的模型。


可用於打造的應用場景

行銷與設計——直接透過提示詞生成含有精確文字的簡報投影片、資訊圖表和海報,草稿素材無需再用 Photoshop 修整。

內容流水線——單一模型即可處理完整的生成 → 編輯 → 迭代流程,無需串接獨立工具分別處理生成、編輯和文字疊加。

多語言內容——在同一張圖像中精確渲染中英文文字,適用於雙語行銷、包裝模型圖和在地化創意素材。

產品攝影——原生 2K 輸出搭配精細細節,讓生成圖像更接近可直接用於生產的品質,省去放大步驟。


持續關注

Qwen Image 2.0 即將在 WaveSpeed 上線。請關注 wavespeed.ai 以獲取發布公告。

在此期間,歡迎探索目前已在 WaveSpeed 上線的 Qwen Image 模型: