← 博客

Kuaishou Kling Image O3 Edit 现已登陆WaveSpeedAI

Kling O3 Edit 是一款支持4K分辨率和多图参考的AI图像编辑模型,能够借助多张参考图像实现高质量图像变换。

2 min read
Kwaivgi Kling Image O3 Edit
Kwaivgi Kling Image O3 Edit Kling O3 Edit 是一款支持4K分辨率和多图参考的AI图像编辑模型,能够借助多张参考图像实现高质量图像变换。...
Try it
Kuaishou Kling Image O3 Edit 现已登陆WaveSpeedAI

发布 Kling Image O3 Edit:由快手全能架构驱动的多参考图像合成

AI 图像生成器的创作能力与编辑能力之间的差距正在快速缩小。但图像合成——将多张源图像中的元素智能融合成一个连贯场景——始终是该领域最难攻克的问题之一。快手的 Kling Image O3 Edit 凭借专为多参考图像合成与编辑构建的模型,在 O3(全能 3)架构的驱动下,实现了最高 4K 分辨率的生成效果,填补了这一空白。现已在 WaveSpeedAI 上线。

什么是 Kling Image O3 Edit?

Kling Image O3 Edit 是快手基于 O3 架构推出的最新图像编辑模型——该架构是支撑 Kling 顶级视频与图像生成模型的统一多模态基础。与此前只支持单张参考图的 Kling 编辑模型不同,O3 Edit 可同时接受最多 10 张参考图,开创了全新的创意工作流类别。

上传包含所需人物、物体、风格或场景的一组照片,再用自然语言描述希望如何将它们组合在一起。模型会理解你的指令,融合每张参考图中的元素,生成一张尊重源材料身份、光线和风格的新图像。无需手动抠图,无需图层管理,无需掌握 Photoshop。

在底层实现上,O3 架构引入了**视觉思维链(vCoT)**推理过程——借鉴自大型语言模型”逐步思考”的方式。在渲染任何一个像素之前,模型会进行隐式场景分解与因果推理,规划如何排布主体、解决不同参考图之间的光线冲突以及处理遮挡关系。正因如此,即便是将来自截然不同的源照片中的元素进行组合,Kling Image O3 Edit 生成的合成图也显得浑然天成,而非简单拼贴。

核心功能

  • 多参考图合成(最多 10 张):向模型输入最多 10 张参考图,并在提示词中按编号引用——“让第 1 张图中的人物穿着第 3 张图中的服装,站在第 5 张图中的环境里。“模型将保留每张参考图各自独特的身份与风格。

  • 文本引导编辑:所有编辑操作均由自然语言驱动。用对话式的描述说明你的需求,模型自动决定如何执行。在传统编辑软件中需要数小时才能完成的复杂合成,只需一句话即可实现。

  • 原生 4K 分辨率:直接从推理管线生成 1K、2K 或 4K 分辨率的图像。4K 输出提供物理精准的微观纹理——皮肤毛孔、织物纹理、材质表面——达到商业印刷和大幅面展示所要求的品质。

  • 灵活的宽高比:根据参考图自动检测,或从 1:1、3:4、4:3、9:16、16:9 等比例中手动选择。无需事后裁剪,即可适配任意平台或格式。

  • 批量生成:从单次请求中生成多个变体。提交一个合成提示词,即可收到多种解读方案供比较,让你无需反复调用 API 即可探索不同的创意方向。

  • 人物身份保留:得益于 O3 架构先进的 3D 重建技术,即使将人物置于全新的场景、姿态或光线条件下,面部特征和人物形象仍能忠实还原参考图。

真实应用场景

人物合成与社交内容

O3 Edit 最突出的能力是将来自不同照片的人物合并到同一场景中。让从未谋面的朋友并肩而立,从各自的单人照中创建合影,或生成将不同背景人物融合在一起的创意场景。内容创作者可以制作出实际拍摄根本无法实现的精彩社交媒体内容。

营销与广告

创意团队可以将来自不同拍摄的产品、模特、场景和生活方式元素进行合成。构建将你的产品、特定地点和特定模特——分别来自不同的图库——融合成一个精致场景的广告素材。以标准分辨率每张 $0.028 的价格,迭代数十种合成变体的成本,不及一张图库照片的授权费用。

风格迁移与创意混搭

上传风格参考图与内容参考图,生成将一个来源的视觉美学与另一个来源的主体相融合的图像。将产品照片转化为水彩画风格,将日落的色调应用于人像,或将多个艺术参考融合成全新的视觉作品。

电商与产品可视化

无需实体拍摄,即可大规模生成产品场景图。将产品图像与不同的背景环境、搭配物品或生活方式场景相结合。家具公司可以将同一款沙发摆放在数十种不同的房间场景中,每个场景来自不同的参考图,仅凭少量源图即可生成整个目录的生活方式图像。

故事板与叙事设计

通过对同一组参考图使用不同的提示词,在一系列场景中保持角色的一致性。O3 Edit 的身份保留功能确保一个角色在第一个场景和第二十个场景中看起来一模一样,使其在漫画创作、故事板制作和视觉叙事工作中具有实用价值。

在 WaveSpeedAI 上快速上手

WaveSpeedAI 以生产工作流所需的基础设施优势提供 Kling Image O3 Edit:

零冷启动:每个请求立即执行。无需模型加载等待,无需排队——即时推理,这对于实时迭代或服务需要即时响应的终端用户至关重要。

快速推理:WaveSpeedAI 优化的基础设施让合成与编辑工作流保持流畅响应,即使在 4K 分辨率下也不例外。

实惠定价:标准和 2K 图像每张仅需 $0.028,4K 图像每张 $0.056。以标准分辨率生成 100 张专业品质的合成图,费用不足 $3。

API 快速入门

import wavespeed

output = wavespeed.run(
    "kwaivgi/kling-image-o3/edit",
    {
        "prompt": "Have the person in picture 1 and the person in picture 2 take a selfie together in a coffee shop",
        "images": [
            "https://example.com/person1.png",
            "https://example.com/person2.png",
        ],
    },
)

print(output["outputs"][0])

最佳实践建议

  • 在提示词中按编号引用具体图像。“第 1 张图中的人物穿着第 3 张图中的服装”远比模糊的描述更有效。
  • **使用高质量、光线充足的参考图。**主体清晰、光线良好的图像能产生最佳合成效果。模型会保留参考图中已有的内容,因此输入质量越高,输出质量越好。
  • 通过将 num_images 设置为大于 1 的值来生成多个变体,探索不同的合成解读方案。
  • **有意识地选择分辨率。**用 1K 或 2K 进行快速迭代和预览,当需要印刷级细节时再切换到 4K 进行最终输出。
  • 自动宽高比在参考图比例相近时效果良好。当面向 Instagram Stories(9:16)或 YouTube 缩略图(16:9)等特定平台时,切换为手动选择。

WaveSpeedAI 上的 Kling O3 生态系统

Kling Image O3 Edit 是快手在 WaveSpeedAI 上不断扩展的 O3 模型家族的一部分。用 Kling Image O3 文生图 生成基础图像,再用 O3 Edit 进行合成与精修,最后用 Kling Video O3 Pro 图生视频 让成果动起来。三者共同构成完整的创意管线——从文字到图像,到编辑合成,再到视频——全部通过统一的 API,定价一致,零冷启动。

立即开始创作

Kling Image O3 Edit 代表了 AI 驱动图像编辑领域的真正跨越。这一级别的多参考图合成能力——具备人物身份保留、原生 4K 输出和自然语言控制——开启了此前根本不存在的创意工作流。无论你是在构建创意工具、扩大内容生产规模,还是探索新形式的视觉叙事,O3 Edit 都能为你提供一种切实可行的方式,将任意一组视觉元素组合成心目中的理想图像。

立即在 WaveSpeedAI 上体验 Kling Image O3 Edit →