xAI Grok Imagine Video Reference To Video 现已登陆WaveSpeedAI
xAI Grok Imagine Video Reference-to-Video 可从多张参考图像生成视频,同时保留人物身份、风格与场景构图。开箱即用,R
Grok Imagine Video 参考图生视频:从多张参考图生成一致的AI视频
如果你能向AI模型提供七张不同的参考图——一个角色、一个场景、一组道具——然后获得一段保留所有视觉细节的连贯视频,那会怎样?这正是 Grok Imagine Video 参考图生视频 所能实现的。这款由xAI打造的多图参考生视频模型,能够生成在每一帧中都保持身份特征、风格和场景构图的动态视频片段,现已在 WaveSpeedAI 上线,无冷启动,按使用量计费。
在AI视频生成快速演进的当下——Grok Imagine 最近在 Artificial Analysis 视频竞技场的文生视频和图生视频两项评测中均夺得第一——参考图生视频版本更进一步,允许你通过最多七张来源图像精确控制生成视频中出现的内容。
Grok Imagine Video 参考图生视频的工作原理
大多数AI视频生成器只接受单张图像或文本提示词。Grok Imagine Video 参考图生视频打破了这一限制,可接受 1到7张参考图像,同时配合描述所需动作、镜头运动和场景的文本提示词。
工作流程如下:
- 提供参考图像 — 通过URL上传最多7张图像,可包含角色、物体、环境或风格参考。
- 编写动作提示词 — 描述场景的运动方式。在提示词中使用
@image1、@image2等标记来引用特定的上传图像。 - 选择时长和分辨率 — 选择6秒或10秒的输出时长,分辨率为720p或480p。
- 生成 — 模型将所有参考图合成为一段具有流畅自然运动的连贯视频。
在底层,Grok Imagine Video 由xAI的Aurora引擎驱动,这是一种在数十亿样本上训练的自回归混合专家架构。模型按顺序预测图像token,从而对生成过程实现精细控制,并有助于在帧间保持视觉一致性——这对于身份保留至关重要的多参考图场景尤为关键。
在WaveSpeedAI上体验Grok Imagine Video参考图生视频 →
Grok Imagine Video 参考图生视频的核心功能
- 多图参考输入(最多7张) — 向模型提供一张照片中的角色、另一张的背景,以及多张道具图。模型将它们合成为统一的场景。
- 身份与风格保留 — 角色、物体和环境在整个生成视频中保持一致的外观。面部特征、服装细节和比例在帧间始终保持稳定。
- 可寻址图像引用 — 在提示词中使用
@image1、@image2等标记,精确指定每张参考图对输出的影响方式。 - 灵活的时长选项 — 生成6秒短片用于快速测试和社交内容,或生成10秒视频呈现更完整的场景。
- 720p和480p分辨率 — 最终输出选择高画质,或选择更快的480p进行快速迭代。
- WaveSpeedAI上的REST API访问 — 无冷启动,即时推理,简单的按秒计费,每秒0.05美元。
Grok Imagine Video 参考图生视频的最佳使用场景
跨多个镜头的一致角色视频
影视和动画项目要求角色在不同场景中保持一致性。向模型提供角色从多个角度拍摄的参考图——正面、侧面、四分之三角度——生成角色自然运动同时保持其精确外观的视频片段。这对于在没有完整制作流程的情况下制作连续剧内容或多场景叙事的创作者来说极具价值。
从产品照片生成产品展示视频
电商团队可将一组静态产品照片转化为动态展示视频。上传产品从不同角度、不同场景拍摄或与互补商品搭配的图像,然后描述动作——缓慢旋转、开箱展示或生活场景演示。模型在整个生成视频中忠实保留产品细节。
规模化社交媒体内容创作
TikTok、Instagram Reels和YouTube Shorts的内容创作者,可以在几秒内从图像集合生成引人入胜的视频片段。将创作者的照片与品牌背景和产品图像结合,无需聘请摄影师或手动剪辑,即可制作符合品牌调性的视频内容。
多角度场景合成
建筑可视化、室内设计和房地产专业人士可提供空间不同角度的参考图像,然后生成保持空间精度和设计一致性的漫游式视频。描述镜头在空间中的运动方式,模型将合成出连贯的场景。
品牌一致的营销视频
遵循严格品牌规范的营销团队,可将品牌资产——徽标、色彩方案、产品图像、代言人照片——作为参考图像提供。模型生成的视频内容符合品牌调性,无需手动进行后期制作对齐。
分镜板到视频的原型制作
创意总监和分镜画师可将单个分镜帧作为参考图像上传,生成展示序列流转方式的粗略视频原型。这大幅加速了商业和叙事项目的前期制作审核流程。
Grok Imagine Video 参考图生视频的定价与API访问
Grok Imagine Video 参考图生视频在WaveSpeedAI上采用简单的按秒计费:
| 时长 | 费用 |
|---|---|
| 6秒 | $0.30 |
| 10秒 | $0.50 |
计费费率: 每秒$0.05,按所选时长计算。
这比许多竞争平台的定价更为实惠。结合WaveSpeedAI的无冷启动和即时推理,你可以快速获得结果,无需为闲置计算时间付费。
API代码示例
import wavespeed
output = wavespeed.run(
"x-ai/grok-imagine-video/reference-to-video",
{
"images": [
"https://example.com/character-front.jpg",
"https://example.com/character-side.jpg",
"https://example.com/background-scene.jpg"
],
"prompt": "@image1 and @image2 show a character who walks through the scene in @image3, looking around with natural movement",
"duration": 10,
"resolution": "720p"
},
)
print(output["outputs"][0])
API参数
| 参数 | 是否必填 | 说明 |
|---|---|---|
images | 是 | 1–7张参考图像URL的数组 |
prompt | 是 | 带有可选@image引用的动作描述 |
duration | 否 | 6或10秒(默认值不同) |
resolution | 否 | 720p(默认)或 480p |
立即开始使用Grok Imagine Video参考图生视频 →
获得最佳效果的使用技巧
- 使用高质量、光线良好的参考图像。 模型的身份保留效果取决于输入质量。清晰、均匀打光的照片能产生更清晰、更一致的视频输出。
- 在提示词中明确引用图像。 使用
@image1、@image2等标记告诉模型哪张参考图对应场景中的哪个元素,以实现精确的构图控制。 - 保持参考图和提示词的一致性。 如果参考图展示的是特定角色,在提示词中描述该角色的动作。参考图与提示词不匹配会产生混乱的输出。
- 从较少的参考图开始,再逐步添加。 先用2–3张图像建立核心场景,然后添加更多参考图以补充细节。这有助于识别每张图像对最终输出的贡献。
- 先用6秒片段进行测试。 在确认使用10秒生成之前,先用较短时长迭代调整提示词和参考图组合。每次测试仅需$0.30,快速迭代成本可控。
- 草稿用480p,最终输出用720p。 在创意探索阶段使用较低分辨率,最终输出时切换到720p。
在WaveSpeedAI上探索相关Grok Imagine模型
Grok Imagine Video 参考图生视频是WaveSpeedAI上xAI视频和图像模型大家族的一部分:
- Grok Imagine Video 图生视频 — 从单张图像输入生成视频
- Grok Imagine Video 文生视频 — 仅从文本提示词生成视频
- Grok Imagine Video 视频延伸 — 平滑续接延伸现有视频
- Grok Imagine Video 视频编辑 — 通过文本指令编辑现有视频
- Grok Imagine 图像文生图 — 从文本提示词生成图像
关于Grok Imagine Video参考图生视频的常见问题
什么是Grok Imagine Video参考图生视频?
Grok Imagine Video 参考图生视频是xAI的多图参考模型,可从最多7张参考图像生成视频,以流畅自然的运动保留身份特征、风格和场景构图。
Grok Imagine Video参考图生视频的费用是多少?
定价为每秒$0.05——6秒视频$0.30,10秒视频$0.50。按所选时长计费,WaveSpeedAI上无订阅费用,仅为实际生成内容付费。
我可以通过API使用Grok Imagine Video参考图生视频吗?
可以。Grok Imagine Video 参考图生视频在WaveSpeedAI上提供REST API,无冷启动,即时推理,简单的按使用量计费。你可以使用WaveSpeed Python SDK或直接HTTP请求将其集成到任何应用中。
Grok Imagine Video最多可以使用多少张参考图像?
你可以提供1到7张参考图像。每张图像可以代表不同的元素——角色、物体、背景或风格参考——你可以在提示词中使用 @image1 到 @image7 单独引用它们。
Grok Imagine Video与其他AI视频模型相比如何?
Grok Imagine 最近在 Artificial Analysis 视频竞技场的文生视频和图生视频两项评测中均排名第一,超越了Runway Gen-4.5、Sora 2 Pro和Google Veo 3.1。参考图生视频变体增加了多图控制功能,而大多数竞争对手的参考输入限制在4张或更少。
准备好从多张参考图像生成一致、保留身份特征的视频了吗?立即在WaveSpeedAI上体验Grok Imagine Video参考图生视频 — 无冷启动,实惠的按秒计费,即时API访问。


