WaveSpeedAI 部落格 - Page 52

GPT Image 1.5 Edit 是 OpenAI 的圖像模型，用於精確的自然語言編輯。添加/移除物體、交換背景、修飾臉部、調整色彩/光線、編輯文字/圖形、裁剪/調整大小，以及應用十六進位顏色控制。隨時可用的 REST 推論 API、最佳性能、無冷啟動、經濟實惠

Longcat Avatar 製作超逼真、唇形同步的長影片生成，具有自然動態和一致的身份。將單張照片 + 音頻轉換為音頻驅動的說話或唱歌化身影片（圖像轉影片），最長 1 分鐘，720p 等級 $0.30/5 秒。現成可用的 REST API，無冷啟動，aff

Qwen Image Edit 2511 LoRA 是增強版本，具有自訂 LoRA 支援以實現個性化風格。它提供更強的編輯一致性、強大的多人身份/姿態一致性、自訂 LoRA 風格、增強的工業/產品設計，以及改進的幾何推理以實現結構保留編輯

Qwen Image Edit 2511 是對 2509 的重大升級，專為真實世界圖像編輯和設計而開發。它提供更強的編輯一致性、穩健的多人身份/姿態一致性、內建 LoRA 風格、增強的工業/產品設計以及改進的幾何推理，以實現結構保留編輯。

阿里巴巴 WAN 2.6 將文字或圖像轉換為影片（720p/1080p），並具有同步音頻，比 Google Veo3 更快更實惠。提供即用型 REST 推論 API、最佳效能、無冷啟動、價格實惠。

Seedance 1.5 Pro Fast Image-to-Video 將單張圖像（加上可選的文字提示）轉化為電影級、偏向真人動作的短片，同時保留主體身份、構圖和首幀保真度。它支援 4–12 秒的時長控制、跟隨輸入圖像的自適應寬高比、實驗

Seedance 1.5 Pro 快速視頻擴展將短片轉換為更長的片段，具有自然運動延續和強大的時間一致性。支持 4–12 秒擴展、720p/1080p 輸出（內置升級）以及種子可重現結果以進行鏡頭匹配。非常適合廣告、預告片和短劇

ByteDance Seedream 4.5 是次世代文本生成圖像模型，專為排版優化——更清晰的文字渲染、更強的提示詞遵循度，以及高達 4K 的輸出解析度，適合海報和品牌視覺設計。提供即用型 REST 推理 API、最優性能、無冷啟動、經濟實惠的定價。

阿里巴巴 WAN 2.6 圖片編輯將提示詞轉化為精確的照片編輯——調整顏色和光線、重新設計美學、替換背景、移除物體並精化細節，同時保持主體身份。為穩定且可重複的圖片轉圖片流程而構建。可立即使用的 REST API，效果最佳

FLUX 2 Max Edit 提供來自 Black Forest Labs 的生產級圖像到圖像編輯——應用自然語言指令和精確的十六進位顏色控制，以獲得一致的工作室品質結果。隨時可用的 REST 推理 API、最佳效能、無冷啟動、經濟實惠的價格。

Black Forest Labs 的 FLUX 2 Max 提供生產級文字轉圖像生成，具有增強的逼真度、更銳利的文字渲染和原生編輯功能，以確保可靠和可重複的結果。現成的 REST 推理 API、最佳效能、無冷啟動、經濟實惠的定價。

以 7 秒為單位延伸 Veo 3.1 影片，使用快速端點—快速、連貫的延續，保留風格和動作，輸出為單一合併片段。隨時可用的 REST 推理 API、最佳效能、無冷啟動、經濟實惠的定價。