← 部落格

WAN 2.7 圖像模型正式上線:真正理解你意圖的文字生圖與AI編輯

阿里巴巴WAN 2.7圖像模型搭載思維模式、卓越的文字渲染能力與基於指令的編輯功能正式發布。比較WAN 2.7與Midjourney V8、FLUX、Nano Banana及Seedream的差異。立即在WaveSpeedAI上使用。

2 min read
WAN 2.7 圖像模型正式上線:真正理解你意圖的文字生圖與AI編輯

WAN 2.7 圖像模型正式登場——先思考,再生成

Alibaba 剛剛發布了 WAN 2.7 的圖像系列,這絕不只是另一次小幅更新。最引人注目的功能是思考模式——模型在生成第一個像素之前,會先推理構圖、空間關係與提示詞邏輯。結果是:圖像真正符合複雜指令,文字真正清晰可讀,編輯真正保留您想保留的內容。

四個模型。兩種能力。一個訊息:AI 圖像生成剛剛變得大幅更聰明。

WAN 2.7 為圖像生成帶來了什麼

思考模式:模型在創作前先規劃

大多數圖像模型以單次前向傳遞處理您的提示詞——速度快,但缺乏深度。WAN 2.7 的思考模式增加了一個推理步驟:模型在生成之前會分析空間關係、構圖邏輯與語意意圖。代價是生成時間稍微延長,換來的是提示詞遵從度的大幅提升,尤其對複雜場景效果顯著。

這在以下情況最為關鍵:

  • 多元素構圖(「一名女性在咖啡廳閱讀,窗外有雨,室內燈光溫暖」)
  • 精確的空間排列(「三個產品由左至右依尺寸遞增排列」)
  • 需要邏輯一致性的場景(「鏡子中的倒影顯示房間後方的景象」)

真正有效的文字渲染

每個 AI 圖像模型都聲稱能渲染文字,WAN 2.7 確實做到了。招牌清晰可讀,產品標籤準確無誤,海報與書封上的字體看起來是經過設計的,而非一團亂碼。這一直是 AI 圖像生成最頑固的失敗點——而 WAN 2.7 直接解決了這個問題。

保留主體身份的指令式編輯

WAN 2.7 Image Edit 不只是轉換圖像——它理解什麼應該改變,什麼不應該改變。上傳一張人像,說「將背景更換為海灘日落」——臉部、姿勢與服裝保持像素級完美,只有背景發生變化。上傳 9 張參考圖像,模型會智慧地融合各元素。

WaveSpeedAI 上的 WAN 2.7 圖像模型陣容

模型類型最大解析度價格最適合
WAN 2.7 Text-to-Image生成2048x2048$0.04網頁、社群媒體、快速迭代
WAN 2.7 Text-to-Image Pro生成4K(4096x4096)$0.075印刷、商業製作、大幅輸出
WAN 2.7 Image Edit編輯2048x2048$0.03快速編輯、草稿
WAN 2.7 Image Edit Pro編輯2K 增強$0.06商業製作、客戶交付成果

四個模型現已全部在 WaveSpeedAI 上透過 REST API 提供,無冷啟動延遲。

WAN 2.7 與其他圖像模型的比較

vs Midjourney V8

Midjourney 在藝術美學上領先——其「氛圍感」在創意工作中無可匹敵。WAN 2.7 則在指令遵從與文字渲染方面領先。如果您的提示詞寫道「木桌上的三顆紅蘋果,旁邊有手寫牌子寫著『新鮮』」,WAN 2.7 會把文字呈現正確。Midjourney 或許畫面更美,但牌子上的字可能會一塌糊塗。此外:WAN 2.7 提供 API 存取,Midjourney 則否。

vs FLUX

FLUX 多功能且快速,LoRA 支援強大。WAN 2.7 的思考模式在複雜場景上更具優勢,因為 FLUX 的單次傳遞方式有時會失去空間連貫性。對於簡單提示詞,FLUX 較快;對於複雜提示詞,WAN 2.7 更精確。

vs Google Nano Banana Pro

Nano Banana Pro 在照片寫實方面表現出色,編輯能力也很強。WAN 2.7 在編輯上與其並駕齊驅,並支援多參考圖像(最多 9 張,相較於 Nano Banana 的方式),同時在生成方面增添了思考模式的優勢。

vs ByteDance Seedream

Seedream 產出的視覺品質令人驚豔。WAN 2.7 則在文字渲染準確度思考模式推理方面脫穎而出——這是 Seedream 與大多數模型仍然掙扎的領域。

宏觀視野:WAN 2.7 橫跨圖像與影片

WAN 2.7 不只是圖像模型。WaveSpeedAI 上的完整生態系統包括:

  • 圖像生成:Text-to-Image + Text-to-Image Pro(本次發布)
  • 圖像編輯:Image Edit + Image Edit Pro(本次發布)
  • 影片生成WAN 2.6 系列——文字生成影片、圖像生成影片、參考圖生成影片、影片延伸

隨著 WAN 2.7 圖像模型加入現有的 WAN 2.6 影片陣容,Alibaba 的 Wan 系列現已成為單一平台上最完整的 AI 生成生態系統。

誰應該使用 WAN 2.7 圖像模型

  • 行銷人員,需要帶有準確文字覆蓋層的圖像(產品名稱、CTA、標語)
  • 電商團隊,大規模生成產品變體與生活風格圖像
  • 設計師,需要遵循精確指令的複雜多元素構圖
  • 內容創作者,想要可透過 API 存取的圖像生成,不受 Midjourney 封閉生態系統限制
  • 代理商,大量製作具備一致品質的廣告活動素材

常見問題

WAN 2.7 的思考模式是什麼?

這是一個推理步驟,模型在生成前分析構圖、空間關係與提示詞邏輯,以稍長的生成時間為代價,產出更連貫、更精確的圖像。

WAN 2.7 真的能在圖像中渲染文字嗎?

可以。與上一代及大多數競爭對手相比,WAN 2.7 的文字渲染能力大幅提升。在大多數情況下,招牌、標籤與字體均清晰可讀且準確無誤。

WAN 2.7 的費用是多少?

Text-to-Image:$0.04(標準版)/ $0.075(Pro 4K 版)。Image Edit:$0.03(標準版)/ $0.06(Pro 版)。

WAN 2.7 可透過 API 使用嗎?

可以。四個模型均可在 WaveSpeedAI 上透過 REST API 使用,無冷啟動延遲,採用按量計費定價。

WAN 2.7 與 Midjourney V8 相比如何?

WAN 2.7 在指令遵從與文字渲染方面表現出色;Midjourney V8 在藝術美學方面表現出色。WAN 2.7 提供 API 存取,Midjourney 則否。

WaveSpeedAI 上最聰明的圖像模型

WAN 2.7 不只是生成圖像——它先思考圖像。無論您需要商業級的文字生成圖像、精確編輯,還是適合印刷的 4K 輸出,WAN 2.7 圖像系列都能為複雜創意工作流程提供所需的精確度。

立即試用 WAN 2.7 Text-to-Image ->

立即試用 WAN 2.7 Image Edit ->

探索所有 WAN 2.7 模型 ->