← 博客

xAI Grok Imagine Image文生图现已登陆WaveSpeedAI

xAI Grok Imagine Image支持使用xAI的Grok Imagine模型进行精准图像编辑。通过文本提示词,借助AI精准地变换和修改图像。

By WaveSpeedAI 3 min read
X Ai Grok Imagine Image Text To Image
X Ai Grok Imagine Image Text To Image xAI Grok Imagine Image支持使用xAI的Grok Imagine模型进行精准图像编辑。通过文本提示词...
Try it
xAI Grok Imagine Image文生图现已登陆WaveSpeedAI

Grok Imagine Image:xAI 的文本生成图像模型,打造高质量视觉内容

Grok Imagine Image 是 xAI 的文本生成图像模型,能够将文本提示词转化为高质量的风格化视觉内容——从写实场景到 3D 角色和 Q 版人物形象,无所不能。该模型现已登陆 WaveSpeedAI,提供即用型 REST API,无冷启动延迟,定价仅为每张图像 $0.022,为开发者、设计师和内容创作者提供了一种快速、经济高效的方式,可大规模生成创意图像。

如果你一直在寻找一个文本生成图像 API,能够将 xAI 标志性的创意范围与批量生成、灵活的宽高比和内置提示词增强器相结合,Grok Imagine Image 完全满足你的需求——并封装在一个生产就绪的推理端点中。

立即体验 Grok Imagine Image →

Grok Imagine Image 的工作原理

Grok Imagine Image 接收自然语言文本提示词,并在极为广泛的宽高比范围内生成高保真图像。许多文本生成图像模型仅支持几种正方形或竖向格式,而 Grok Imagine Image 支持 11 种预设宽高比——2:1、20:9、16:9、4:3、3:2、1:1、2:3、3:4、9:16、9:20 以及模型默认值——使其同样适用于 TikTok 竖版、YouTube 缩略图、Instagram 帖子和超宽电影横幅。

该模型还支持每次请求最多批量生成 4 张图像,当你需要探索多个视觉方向时,可以大幅缩短迭代时间。结合内置的提示词增强器,Grok Imagine Image 成为创意工作的快速反馈循环,而不仅仅是一个静态图像生成器。

对于开发者而言,API 设计刻意保持简洁:传入 prompt,可选择 aspect_rationum_images,即可完成调用。无需微调,无需 LoRA 管理,无需 GPU 配置。

Grok Imagine Image 的核心功能

  • 高质量风格化输出 — 无论是 3D 角色、Q 版插画还是写实环境,均表现出色,一个模型即可适应多种视觉语言。
  • 11 种预设宽高比 — 从 9:20 超竖版到 2:1 电影宽屏,无需后期处理或裁剪,即可匹配平台所需的精确格式。
  • 最多 4 张图像的批量生成 — 单次 API 调用即可生成四种变体,非常适合 A/B 测试、情绪板和快速概念探索。
  • 内置提示词增强器 — xAI 的提示词增强功能自动优化你的输入,产出更丰富、更细致的结果,降低非专业用户的使用门槛。
  • 可预测的按图计费 — 每张图像统一收费 $0.022,无隐藏费用或计算时长计费,大批量工作负载的预算规划一目了然。
  • WaveSpeedAI 上的生产就绪 REST API — 零冷启动、低延迟、按需付费,不再为闲置 GPU 容量买单。

Grok Imagine Image 的最佳使用场景

角色设计与 3D 插画

Grok Imagine Image 在风格化 3D 角色、Q 版形象和玩具风格插画方面尤为出色。独立游戏工作室、动画流水线和周边设计师可以在几分钟内生成角色概念——每次请求生成四种变体,在投入正式生产资产之前确定合适的姿势、表情或美术方向。

大规模社交媒体内容

运营多平台营销活动的营销团队可从该模型的宽高比灵活性中获益匪浅。一个品牌简报可以在同一个下午通过同一个 API 渲染为 1:1 的 Instagram 帖子、9:16 的 Reels/TikTok 视觉图和 16:9 的 YouTube 缩略图。结合批量生成,一次冲刺即可填充数周的内容日历。

概念艺术与预视觉化

电影、广告和游戏工作室使用快速概念艺术在创意团队之间传达想法。Grok Imagine Image 能够同时处理写实环境和风格化角色,使其成为多功能的预视觉化工具——超宽的 2:1 和 20:9 比例非常适合关键帧、环境板和电影横幅。

营销创意与广告变体

效果营销人员深知创意量驱动效果。借助 Grok Imagine Image,代理商可以以每张 $0.022 的价格生成数十种广告创意变体——不同宽高比、不同视觉风格、不同场景构图——然后将表现最佳的方案投放到付费推广活动中,而无需担心成本失控。

电商主图

在线零售商可使用 Grok Imagine Image 生成生活方式图像、主题横幅和季节性营销活动视觉内容,无需预约拍摄。该模型对纹理、光线和色彩的出色处理,使其适合生成与产品相关的视觉内容,如背景、氛围图和主图横幅。

编辑与出版插图

新闻编辑室、博客和编辑类网站需要在紧迫的截止日期内获取原创图像。Grok Imagine Image 快速的推理速度和广泛的风格范围——以及帮助非设计师构建更好视觉提示词的提示词增强器——使其非常适合编辑插图工作流程。

设计师的快速原型制作

设计师在探索新品牌、应用程序或营销活动方向时,可使用 num_images=4 在单次调用中生成视觉情绪板。迭代提示词、细化方向、收敛到最终概念——全程无需离开 API。

Grok Imagine Image 定价与 API 访问

WaveSpeedAI 上的 Grok Imagine Image 采用简单、可预测的按图计费方式:

输出费用
每张图像$0.022

计费示例:

  • 1 张图像 → $0.022
  • 2 张图像 → $0.044
  • 4 张图像 → $0.088(每次请求最大数量)

总费用计算公式为 $0.022 × num_images,每次请求上限为 4 张图像。

API 参数

参数是否必填说明
prompt你想生成的图像的文字描述
aspect_ratio输出比例:2:1、20:9、16:9、4:3、3:2、1:1、2:3、3:4、9:16、9:20
num_images每次请求的图像数量(1–4,默认:1)

代码示例

import wavespeed

output = wavespeed.run(
    "x-ai/grok-imagine-image/text-to-image",
    {
        "prompt": "A cinematic portrait of a futuristic samurai under neon rain, ultra-detailed, dramatic lighting",
        "aspect_ratio": "16:9",
        "num_images": 4,
    },
)

print(output["outputs"][0])

WaveSpeedAI 负责处理基础设施——无需 GPU 配置,无冷启动延迟,无扩容困扰。你获得一个生产级 REST 端点,只需为生成的图像付费,并可直接集成到你的应用程序技术栈中。

获取 API 密钥,开始构建 →

获得最佳效果的使用技巧

  • 使用提示词增强器将简短的提示词优化为更丰富、更具描述性的输入——对于非设计师或需要批量处理多个概念的场景尤为有用。
  • 明确指定风格、纹理、光线和色彩方案。 如”柔和的体积边缘光、冷蓝色调、哑光质感”等提示词比通用描述词能产出更一致的结果。
  • 探索新概念时一次生成四张图像。 边际成本很小,而变体的多样性能为你提供更好的素材进行后续优化。
  • 根据目标平台匹配宽高比:YouTube 和桌面端使用 16:9,TikTok/Reels/Stories 使用 9:16,Instagram 信息流使用 1:1,电影横幅和网站页眉使用 2:1 或 20:9。
  • 在提示词上迭代,而非参数。 最大的提升来自于对主体、构图和氛围更清晰的描述,而不是反复调整宽高比。
  • Grok Imagine Image Edit 配合使用,当你需要对生成结果进行优化或修改时。这两个模型被设计为”生成-编辑”流水线协同使用。

常见问题解答

什么是 Grok Imagine Image?

Grok Imagine Image 是 xAI 的文本生成图像模型,以托管 REST API 的形式在 WaveSpeedAI 上提供。它可以将文本提示词转化为支持 11 种宽高比的高质量图像,并支持每次请求最多批量生成 4 张图像。

Grok Imagine Image 的费用是多少?

Grok Imagine Image 在 WaveSpeedAI 上的定价为每张图像 $0.022,每次请求最多 4 张图像。单张图像请求为 $0.022;四张图像批量请求为 $0.088。

我可以通过 API 使用 Grok Imagine Image 吗?

可以。Grok Imagine Image 可通过 WaveSpeedAI 的 REST 推理 API 完全访问,无冷启动,无需 GPU 配置,按需付费。你可以直接使用 WaveSpeed Python SDK 或任何 HTTP 客户端调用它。

Grok Imagine Image 支持哪些宽高比?

Grok Imagine Image 支持 11 种预设宽高比:2:1、20:9、16:9、4:3、3:2、1:1、2:3、3:4、9:16 和 9:20,以及一个默认选项。这使其非常适合通过单一 API 为 YouTube、TikTok、Instagram 和电影横幅生成内容。

Grok Imagine Image 每次请求可以生成多少张图像?

通过设置 num_images 参数,你可以在单次 Grok Imagine Image API 调用中生成 1 到 4 张图像。这非常适合快速迭代、A/B 测试创意变体以及高效探索多种设计方向。

立即开始使用 Grok Imagine Image 构建

Grok Imagine Image 将 xAI 的文本生成图像能力带入生产就绪的推理端点,具备真实应用所需的速度、可靠性和可预测的定价。无论你是在开发创意 SaaS 工具、扩展营销创意规模,还是在原型设计新产品创意,这都是目前最灵活、最具成本效益的文本生成图像 API 之一。

在 WaveSpeedAI 上启用 Grok Imagine Image →