Step1X-Edit：开源图像编辑新标准

在图像编辑领域，用户对高质量和用户友好的解决方案的需求日益增长。虽然 GPT-4o 和 Gemini 2 Flash 等闭源多模态模型提供了强大的图像编辑功能，但开源选项在性能上往往落后。为了缩小这一差距，Step1X-Edit 已开发完成，现已在 WaveSpeed 平台上推出。

关于该模型

Step1X-Edit 是一个基于多模态大语言模型（LLM）的图像编辑模型。它处理参考图像和自然语言编辑指令，生成目标图像。该模型架构将潜在嵌入生成与基于扩散的图像解码器集成在一起，以实现高质量的编辑。此外，团队构建了用于训练的高质量合成数据生成管道，并推出了 GEdit-Bench，这是一个新的基准，用于在真实用户提示上评估模型性能。

主要特性

自然语言编辑： 用户可以通过提供文本指令（例如”改变服装”）来编辑图像，使该过程直观易用。
高质量输出： 结合多模态 LLM 功能和扩散解码器，Step1X-Edit 生成专业级的编辑图像。
开源可用性： 作为完全开源的模型，Step1X-Edit 提供透明的代码和数据集，允许开发者对其进行微调或自定义以满足他们的需求。
卓越的性能： 在 GEdit-Bench 评估中，Step1X-Edit 明显超越现有开源基准，接近闭源模型的性能。

使用场景

个性化图像编辑：用户可以根据特定需求快速对图像进行自定义修改。内容创作：设计师和内容创作者可以利用该模型实现更快速、高质量的图像生成和编辑。教育和研究：作为开源解决方案，Step1X-Edit 非常适合学术研究、教学和多模态人工智能领域的进一步创新。

如何访问

游乐场访问： 访问 Step 1X-Edit 模型页面，上传图像并输入自然语言编辑指令。立即生成高质量的编辑结果，无需任何代码——非常适合快速测试和创意探索。
API 集成： Step1X-Edit 为开发者提供完整的 API 支持。通过 Wavespeed 平台获取 API 密钥，将该模型无缝集成到您的应用程序、系统或工作流中。这支持自动化的大规模图像编辑。有关详细说明，请参考官方 Wavespeed 开发者文档。