xAI Grok Imagine Video Reference To Video 現已登陸WaveSpeedAI

Grok Imagine Video 參考圖像生成影片：從多張參考圖像生成一致的 AI 影片

如果您能向 AI 模型提供七張不同的參考圖像——一個角色、一個場景、一組道具——然後得到一段保留每個視覺細節的完整連貫影片，那會怎樣？這正是 Grok Imagine Video 參考圖像生成影片所實現的功能。這款由 xAI 打造的多圖像參考生成影片模型，能生成在每一幀中都保持身份特徵、風格與場景構圖的動態影片片段，現已在 WaveSpeedAI 上線，無需冷啟動，按使用量計費。

在 AI 影片生成技術快速演進的當下——Grok Imagine 最近在 Artificial Analysis 影片競技場的文字生成影片與圖像生成影片兩項評比中雙雙奪得第一——參考圖像生成影片的變體更進一步，讓您可以透過最多七張來源圖像，精確控制生成影片中呈現的內容。

Grok Imagine Video 參考圖像生成影片的工作原理

大多數 AI 影片生成器只接受單張圖像或文字提示。Grok Imagine Video 參考圖像生成影片突破了這一限制，可在文字提示之外接受 1 至 7 張參考圖像，文字提示用於描述所需的動作、鏡頭移動與場景。

工作流程如下：

提供參考圖像 — 透過 URL 上傳最多 7 張圖像，可包含角色、物件、環境或風格參考。
撰寫動作提示 — 描述場景的動作方式，在提示中使用 @image1、@image2 等標記來引用特定的上傳圖像。
選擇時長與解析度 — 選擇 6 秒或 10 秒的輸出時長，解析度為 720p 或 480p。
生成 — 模型將所有參考圖像合成為一段具有流暢自然動作的完整連貫影片。

在底層架構上，Grok Imagine Video 由 xAI 的 Aurora 引擎驅動，採用在數十億個範例上訓練的自回歸混合專家架構。模型依序預測圖像標記，從而對生成過程進行精密控制，並有助於在幀與幀之間保持視覺一致性——這對於身份保留至關重要的多參考場景尤為關鍵。

在 WaveSpeedAI 上試用 Grok Imagine Video 參考圖像生成影片 →

Grok Imagine Video 參考圖像生成影片的主要功能

多圖像參考輸入（最多 7 張圖像） — 可使用一張照片中的角色、另一張的背景，以及多張圖像中的道具，模型將它們合成為統一的場景。
身份與風格保留 — 角色、物件與環境在整個生成影片中保持一致的外觀，面部特徵、服裝細節與比例在各幀之間保持穩定。
可定址的圖像參考 — 在提示中使用 @image1、@image2 等標記，精確指定每張參考圖像如何影響輸出結果。
靈活的時長選項 — 生成 6 秒片段用於快速測試和社群內容，或生成 10 秒影片呈現更完整的場景。
720p 與 480p 解析度 — 選擇更高品質用於最終輸出，或使用較快的 480p 處理速度進行快速迭代。
WaveSpeedAI REST API 存取 — 無冷啟動、即時推理，以每秒 $0.05 的簡單按量計費模式。

Grok Imagine Video 參考圖像生成影片的最佳使用案例

跨多個鏡頭的一致角色影片

電影與動畫專案需要角色在場景之間保持一致性。向模型提供角色從多個角度拍攝的參考圖像——正面、側面、四分之三側面——並生成角色自然移動且外觀完全一致的影片片段。對於在沒有完整製作流水線的情況下製作系列內容或多場景敘事的創作者來說，這一功能極具價值。

從產品照片製作產品展示影片

電商團隊可將一組靜態產品照片轉化為動態展示影片。上傳從不同角度、不同場景拍攝的產品圖像，或與互補商品搭配的圖像，然後描述動作——緩慢旋轉、開箱序列或生活情境展示。模型在整個生成影片中忠實保留產品細節。

大規模社群媒體內容創作

TikTok、Instagram Reels 和 YouTube Shorts 的內容創作者可在數秒內從圖像集合生成引人入勝的影片片段。將創作者的照片與品牌背景及產品圖像相結合，無需聘請攝影師或手動剪輯素材，即可製作符合品牌調性的影片內容。

多角度場景構圖

建築視覺化、室內設計和房地產專業人士可提供空間不同角度的參考圖像，然後生成保持空間準確性和設計一致性的漫遊式影片。描述鏡頭在空間中的移動方式，模型即可合成出連貫的場景。

品牌一致的行銷影片

遵循嚴格品牌規範的行銷團隊可提供品牌資產——標誌、色彩方案、產品圖像、代言人照片——作為參考圖像。模型生成的影片內容保持品牌一致性，無需手動進行後期製作調整。

分鏡板到影片的原型製作

創意總監和分鏡師可將各個分鏡格上傳為參考圖像，並生成粗略的影片原型，展示序列的流動方式。這大幅加速了商業和敘事專案的前期製作審查流程。

Grok Imagine Video 參考圖像生成影片的定價與 API 存取

Grok Imagine Video 參考圖像生成影片在 WaveSpeedAI 上提供簡單明瞭的按秒計費：

時長	費用
6 秒	$0.30
10 秒	$0.50

計費費率： 每秒 $0.05，以所選時長為基礎計算。

這比許多競爭平台的費用實惠得多。結合 WaveSpeedAI 的無冷啟動和即時推理，您可以快速獲得結果，無需為閒置的運算時間付費。

API 程式碼範例

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4"
    ],
    "duration": 6,
    "resolution": "720p"
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/x-ai/grok-imagine-video/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

API 參數

參數	必填	說明
`images`	是	1–7 個參考圖像 URL 的陣列
`prompt`	是	包含可選 @image 引用的動作描述
`duration`	否	6 或 10 秒（預設值不同）
`resolution`	否	`720p`（預設）或 `480p`

立即開始使用 Grok Imagine Video 參考圖像生成影片 →

獲得最佳效果的使用技巧

使用高品質、光線充足的參考圖像。 模型的身份保留能力取決於輸入品質。清晰、均勻光線的照片能產生更清晰、更一致的影片輸出。
在提示中明確引用圖像。 使用 @image1、@image2 等標記告知模型哪個參考對應場景中的哪個元素，這能為您提供精確的構圖控制。
保持參考圖像與提示的一致性。 如果參考圖像顯示特定角色，請在提示中描述該角色的動作。參考圖像與提示不一致會產生混亂的輸出。
從較少的參考圖像開始，逐步增加。 先使用 2–3 張圖像建立核心場景，然後添加更多參考以增加細節。這有助於您確認哪些圖像對最終輸出有何貢獻。
先用 6 秒片段進行測試。 在確定使用 10 秒生成之前，先使用較短的時長迭代您的提示和參考組合。每次測試僅需 $0.30，快速迭代非常划算。
草稿使用 480p，最終輸出使用 720p。 在創意探索階段使用較低解析度，然後在最終輸出時切換到 720p。

在 WaveSpeedAI 上探索相關的 Grok Imagine 模型

Grok Imagine Video 參考圖像生成影片是 WaveSpeedAI 上更廣泛的 xAI 影片與圖像模型系列的一部分：

Grok Imagine Video 圖像生成影片 — 從單張圖像輸入生成影片
Grok Imagine Video 文字生成影片 — 僅從文字提示創建影片
Grok Imagine Video 延伸 — 以流暢的延續方式延長現有影片
Grok Imagine Video 編輯 — 使用文字指令編輯現有影片
Grok Imagine Image 文字生成圖像 — 從文字提示生成圖像

關於 Grok Imagine Video 參考圖像生成影片的常見問題

什麼是 Grok Imagine Video 參考圖像生成影片？

Grok Imagine Video 參考圖像生成影片是 xAI 的多圖像參考模型，可從最多 7 張參考圖像生成影片，在流暢自然的動作中保留身份特徵、風格與場景構圖。

Grok Imagine Video 參考圖像生成影片的費用是多少？

定價為每秒 $0.05——6 秒影片為 $0.30，10 秒影片為 $0.50。計費以所選時長為基礎，在 WaveSpeedAI 上無需訂閱費用，您只需為生成的內容付費。

我可以透過 API 使用 Grok Imagine Video 參考圖像生成影片嗎？

可以。Grok Imagine Video 參考圖像生成影片在 WaveSpeedAI 上以 REST API 的形式提供，無冷啟動、即時推理，以及簡單的按量計費模式。您可以使用 WaveSpeed Python SDK 或直接 HTTP 請求將其整合到任何應用程式中。

使用 Grok Imagine Video 最多可以提供多少張參考圖像？

您可以提供 1 至 7 張參考圖像。每張圖像可代表不同元素——角色、物件、背景或風格參考——您可以在提示中使用 @image1 至 @image7 單獨引用它們。

Grok Imagine Video 與其他 AI 影片模型相比如何？

Grok Imagine 最近在 Artificial Analysis 影片競技場的文字生成影片和圖像生成影片兩項評比中均排名第一，超越了 Runway Gen-4.5、Sora 2 Pro 和 Google Veo 3.1。參考圖像生成影片的變體增加了多圖像控制功能，而大多數競爭對手將參考輸入限制在 4 張或更少。

準備好從多張參考圖像生成一致且保留身份特徵的影片了嗎？在 WaveSpeedAI 上試用 Grok Imagine Video 參考圖像生成影片 — 無冷啟動、實惠的按秒計費，以及即時 API 存取。