Kuaishou Kling Image O3 Edit 現已登陸WaveSpeedAI
Kling O3 Edit 是一款支援 4K 解析度與多圖參考的 AI 圖像編輯模型,可利用多張參考圖像實現高品質的影像轉換效果。
介紹 Kling Image O3 Edit:由快手 Omni 架構驅動的多參考圖像合成
AI 圖像生成器能夠創建的內容與能夠編輯的內容之間的差距正在迅速縮小。但合成——將多張來源圖像中的元素智能地組合成單一連貫場景——一直是這個領域最困難的問題之一。快手的 Kling Image O3 Edit 透過一個專為多參考圖像合成與編輯而構建的模型填補了這一差距,該模型由 O3(Omni 3)架構驅動,能夠生成最高 4K 解析度的結果。現已在 WaveSpeedAI 上提供。
什麼是 Kling Image O3 Edit?
Kling Image O3 Edit 是快手最新的圖像編輯模型,建立於 O3 架構之上——這與 Kling 頂級影片和圖像生成模型背後的統一多模態基礎相同。以往的 Kling 編輯模型只能使用單張參考圖像,而 O3 Edit 可同時接受最多 10 張參考圖像,開啟了全新的創意工作流程類別。
上傳一組包含您想要組合的人物、物件、風格或環境的照片,然後用自然語言描述它們應如何結合。模型會解讀您的指令,融合每張參考圖像中的元素,並生成一張尊重原始素材的身份、光線和風格的新圖像。無需手動遮罩、無需圖層管理、無需 Photoshop 專業知識。
在底層,O3 架構引入了**視覺思維鏈(vCoT)**推理過程——借鑒了大型語言模型「逐步思考」的方式。在渲染任何像素之前,模型會執行隱式場景分解和因果推理,規劃如何排列主體、解決參考圖像之間的光線衝突,以及處理遮擋問題。這就是為什麼 Kling Image O3 Edit 生成的合成圖像感覺是經過深思熟慮的,而非拼貼堆砌,即使在組合來自截然不同來源照片的元素時也是如此。
主要功能
-
多參考合成(最多 10 張圖像):向模型提供最多 10 張參考圖像,並在提示詞中按編號引用它們——「讓圖片 1 中的人穿著圖片 3 中的服裝,站在圖片 5 中的環境裡。」模型會保持每張參考圖像的獨特身份和風格。
-
文字引導編輯:所有編輯均由自然語言驅動。以對話方式描述您想要的效果,模型會決定如何執行。在傳統編輯軟體中需要數小時才能完成的複雜合成,只需一句話即可實現。
-
原生 4K 解析度:直接從推理管線生成 1K、2K 或 4K 解析度的圖像。4K 輸出能呈現實體準確的微觀紋理——皮膚毛孔、織物紋路、材質表面——達到適合商業印刷和大型展示的水準。
-
靈活的長寬比:根據您的參考圖像自動偵測,或從 1:1、3:4、4:3、9:16、16:9 等比例中手動選擇。無需事後裁剪即可適配任何平台或格式。
-
批次生成:從單一請求生成多個變體。提交一個合成提示詞,即可收到多個解讀版本供比較,讓您無需重複呼叫 API 即可探索創意方向。
-
角色身份保留:得益於 O3 架構先進的 3D 重建技術,即使將人臉和角色特徵置於全新的場景、姿勢或光線條件下,也能忠實還原參考圖像中的特徵。
實際應用場景
角色合成與社群內容
O3 Edit 最獨特的能力是將不同照片中的人物組合到共同場景中。將素未謀面的朋友並排放置、從個人肖像創建合照,或生成涉及不同場景人物的創意情境。內容創作者可以製作出在現實中根本無法拍攝的引人入勝的社群媒體貼文。
行銷與廣告
創意團隊可以將來自不同拍攝的產品、模特兒、環境和生活方式元素進行合成。構建將您的產品、特定地點和特定模特兒——每個元素均來自不同的圖庫——組合成單一精緻場景的宣傳視覺素材。以標準解析度每張圖像僅 $0.028 的價格,迭代數十個合成變體的成本低於一張圖庫照片的授權費。
風格轉換與創意混搭
上傳風格參考圖像以及內容參考圖像,生成融合一個來源視覺美學與另一個來源主題的圖像。將產品照片轉換為水彩畫風格、將日落的色調套用到人像上,或將藝術參考融合成全新的創作。
電商與產品視覺化
無需實體拍攝即可大規模生成產品情境圖像。將產品圖像與不同的背景環境、互補物件或生活場景相結合。傢具公司可以將其沙發置於數十種不同的房間環境中,每種環境來自不同的參考照片,從少量來源圖像生成整份目錄所需的生活風格圖像。
故事板與敘事設計
透過對不同提示詞使用相同的參考圖像,在一系列場景中保持角色的一致性。O3 Edit 的身份保留確保角色在第一幕和第二十幕中看起來相同,使其適用於漫畫創作、故事板繪製和視覺敘事工作。
在 WaveSpeedAI 上快速入門
WaveSpeedAI 以生產工作流程所需的基礎架構優勢提供 Kling Image O3 Edit:
無冷啟動延遲:每個請求立即執行。沒有模型載入延遲,沒有排隊等候——只有即時推理,這在您即時迭代或為期望立即看到結果的終端用戶提供服務時至關重要。
快速推理:WaveSpeedAI 的優化基礎架構讓合成和編輯工作流程保持高效響應,即使在 4K 解析度下也不例外。
實惠定價:標準和 2K 圖像每張僅需 $0.028。4K 圖像每張 $0.056。以標準解析度不到 $3 即可生成 100 張專業品質的合成圖像。
使用 API 快速開始
import wavespeed
output = wavespeed.run(
"kwaivgi/kling-image-o3/edit",
{
"prompt": "Have the person in picture 1 and the person in picture 2 take a selfie together in a coffee shop",
"images": [
"https://example.com/person1.png",
"https://example.com/person2.png",
],
},
)
print(output["outputs"][0])
最佳效果技巧
- 在提示詞中按編號引用特定圖像。「圖片 1 中的人穿著圖片 3 中的服裝」遠比模糊的描述更有效。
- 使用高品質、光線良好的參考圖像。 主體清晰、光線充足的照片能產生最佳合成效果。模型會保留您參考圖像中已有的內容,因此輸入品質決定輸出品質。
- 將
num_images設置為大於 1,生成多個變體,以探索您合成的不同解讀版本。 - 謹慎選擇解析度。 在快速迭代和預覽時使用 1K 或 2K,當您需要印刷品質的細節用於最終輸出時再切換到 4K。
- 當您的參考圖像比例相近時,自動長寬比效果良好。當針對特定平台(如 Instagram 限時動態的 9:16 或 YouTube 縮圖的 16:9)時,請切換到手動選擇。
WaveSpeedAI 上的 Kling O3 生態系統
Kling Image O3 Edit 是快手在 WaveSpeedAI 上不斷擴展的 O3 模型家族的一部分。使用 Kling Image O3 文字轉圖像生成基礎圖像,使用 O3 Edit 進行合成和精修,然後使用 Kling Video O3 Pro 圖像轉影片將您的成果呈現為動態影像。它們共同構成一個完整的創意管線——從文字到圖像,到編輯合成,再到影片——全部透過統一的 API,定價一致,零冷啟動延遲。
立即開始合成創作
Kling Image O3 Edit 代表了 AI 驅動圖像編輯領域的真正飛躍。這種品質水準的多參考合成——具備角色身份保留、原生 4K 輸出和自然語言控制——開啟了以往根本不存在的創意工作流程。無論您是在構建創意工具、擴展內容生產,還是探索視覺敘事的新形式,O3 Edit 都為您提供了一種切實可行的方式,將任意一組視覺元素組合成您心目中的理想圖像。





