← 部落格

xAI Grok Imagine Video 文字轉影片現已登陸WaveSpeedAI

X-AI Grok Imagine Video 使用 xAI 的 Grok Imagine Video 模型,根據文字描述生成影片。可自訂時長與寬高比,製作高品質影片。

By WaveSpeedAI 3 min read
X Ai Grok Imagine Video Text To Video X-AI Grok Imagine Video 使用 xAI 的 Grok Imagine Video 模型,根據文字描...
Try it

Grok Imagine Video 文字轉影片:xAI 的電影級 AI 影片生成器現已登陸 WaveSpeedAI

Grok Imagine Video 文字轉影片是 xAI 的文字轉影片生成模型,能將自然語言描述轉化為具有真實動態、光影與氛圍的電影級影片片段。現已在 WaveSpeedAI 上線,支援零冷啟動與按秒計費,讓開發者和創作者即可存取市場上排名頂尖的 AI 影片生成器,無需拍攝、素材庫或後期製作。

自 API 上線以來,Grok Imagine 已生成超過 12 億部影片,目前在基於 ELO 排名的 Artificial Analysis 文字轉影片榜單中位居第一。透過 WaveSpeedAI,您可以透過簡單的 REST API 將此模型整合到您的工作流程中,並在數秒內開始生成影片。

立即在 WaveSpeedAI 試用 Grok Imagine Video 文字轉影片 →

Grok Imagine Video 文字轉影片的工作原理

Grok Imagine Video 採用 xAI 的 Aurora 引擎,將詳細的文字描述轉化為連貫的影片序列。與需要起始幀的圖片轉影片工作流程不同,此模型從零開始生成每一幀——您描述場景、動態、鏡頭運動和氛圍,模型即可產出完整的影片片段。

技術規格:

  • 輸入:描述場景、動態和視覺風格的文字提示
  • 輸出:具有真實動態與物理效果的 MP4 影片
  • 時長:每次生成 1–15 秒(預設:6 秒)
  • 畫面比例:16:9、9:16、4:3、3:4、3:2、2:3 和 1:1
  • 解析度:720p(預設)或 480p(處理速度更快)
  • 提示增強器:內建工具,可自動優化您的描述以獲得更佳輸出

此模型理解電影攝影語言。「推軌鏡頭」、「跟蹤橫移」、「手持攝影機」和「淺景深」等術語能產出明顯不同的效果。它還能處理光線條件、天氣效果和一天中不同時段的光線變化,使其成為目前最具可控性的文字轉影片模型之一。

在直接對比基準測試中,Grok Imagine 在人工評分比較中對陣 Runway 錄得 64.1% 的整體勝率,指令遵循得分為 57.4% 對 42.6%——這意味著它比許多競品更能一致地執行您的要求。

Grok Imagine Video 在 WaveSpeedAI 上的主要功能

  • 純文字驅動生成 — 無需參考圖片。描述任何場景,從零生成電影級畫面。
  • 業界頂尖的指令遵循能力 — 此模型在 Artificial Analysis 上位居第一,能精準將提示轉化為影片。您所描述的即是您所得到的。
  • 靈活的時長控制 — 生成 1 至 15 秒的片段。使用延伸模式串接額外片段以創作更長的序列。
  • 七種畫面比例 — 原生支援 16:9(YouTube)、9:16(TikTok/Reels)、1:1(Instagram)及另外四種格式。無需裁切或調整尺寸。
  • 內建提示增強器 — 自動將模糊描述優化為詳細的電影級提示,降低非專業人士的使用門檻。
  • WaveSpeedAI 零冷啟動 — 推理即時開始,無需等待模型載入或 GPU 分配。

使用 Grok Imagine 生成您的第一部影片 →

Grok Imagine Video 文字轉影片的最佳應用場景

短影音社群媒體內容

TikTok、Instagram Reels 和 YouTube Shorts 需要源源不斷的影片內容。Grok Imagine Video 原生生成 9:16 豎版片段,讓您能在 20 秒內從文字提示製作出吸睛內容。描述一個產品鏡頭、氛圍開場或熱門視覺概念,即可獲得無需拍攝的可發布片段。

行銷與廣告活動

傳統影片廣告製作需要製作團隊、場地勘查和剪輯時間。有了 Grok Imagine,行銷團隊可以從不同提示生成數十種廣告變體、對視覺概念進行 A/B 測試,並在數分鐘而非數週內反覆調整創意方向。以每秒 $0.055 計算,製作一支 6 秒廣告僅需 $0.33。

概念視覺化與提案

建築師、遊戲設計師和創意總監可以在投入完整製作前將創意概念呈現出來。描述一個環境、一個動態中的角色或產品揭幕場景,獲得比靜態模型或簡報更能有效向利害關係人傳達願景的影片。

電商產品影片

從文字描述生成動態產品展示影片——旋轉視角、生活場景或氛圍感產品揭幕。這對需要專業質感影片內容但沒有攝影棚預算的代購商和小品牌尤為實用。

教育與解說內容

教師和課程創作者可以生成科學概念、歷史場景或抽象概念的視覺示範。描述「慢動作特寫水分子結成冰晶的過程」,即可獲得原本需要專業設備或昂貴素材庫授權才能取得的畫面。

電影與音樂影片前期視覺化

導演和音樂影片製作人可以使用 Grok Imagine 在拍攝前進行場景前期視覺化。透過快速的文字轉影片迭代測試攝影機角度、燈光設置和場景構圖,然後與工作人員和演員分享生成的片段,以統一創意願景。

Grok Imagine Video 在 WaveSpeedAI 上的定價與 API 存取

WaveSpeedAI 上的 Grok Imagine Video 採用簡單的按秒計費,無訂閱費、無最低消費,也無冷啟動費用。

時長費用
每秒$0.055
5 秒影片$0.275
6 秒影片(預設)$0.33
10 秒影片$0.55
15 秒影片$0.825

API 整合

只需幾行程式碼即可開始:

import wavespeed

output = wavespeed.run(
    "x-ai/grok-imagine-video/text-to-video",
    {
        "prompt": "A golden retriever running through a sunlit meadow, slow motion, shallow depth of field, cinematic color grading",
        "duration": 6,
        "aspect_ratio": "16:9",
        "resolution": "720p"
    },
)

print(output["outputs"][0])

WaveSpeedAI 提供標準 REST API,零冷啟動,即時推理。您只需為實際使用付費,無閒置 GPU 成本。

對於需要將影片生成整合到生產應用程式的團隊,WaveSpeedAI 還提供相關的 Grok Imagine Video 圖片轉影片模型(用於為靜態圖片添加動態),以及 Grok Imagine Image 文字轉圖片(用於從文字生成靜態圖片)。

獲得 Grok Imagine Video 最佳效果的技巧

  1. 明確描述鏡頭運動。「緩慢推軌穿越霧氣瀰漫的森林」比「森林的影片」能產出效果顯著更好的結果。此模型擅長解讀電影攝影指令。

  2. 描述光線和氛圍。加入「黃金時段逆光」、「陰天漫射光」或「霓虹燈雨後街道」等細節,為模型提供明確的視覺目標。

  3. 使用提示增強器快速起步。如果您不確定如何描述一個場景,先提交簡單的提示,讓內建增強器自動添加電影級細節。

  4. 根據平台選擇畫面比例。YouTube 和橫向內容使用 16:9,TikTok 和 Instagram Reels 使用 9:16,Instagram 貼文使用 1:1。以原生比例生成可避免裁切造成的品質損失。

  5. 先用 720p,迭代時切換至 480p。在快速測試提示想法時使用 480p,確認最終輸出時再切換至 720p。這能在創意探索階段縮短處理時間。

  6. 加入時間點和動作提示。「鳥兒在短暫停頓後展翅飛翔」或「鏡頭緩慢揭示城市天際線」等短語有助於模型創造更具控制感、更有意圖的動態。

關於 Grok Imagine Video 的常見問題

什麼是 Grok Imagine Video 文字轉影片?

Grok Imagine Video 文字轉影片是 xAI 的 AI 影片生成模型,能從自然語言文字描述創作電影級影片片段,支援最長 15 秒、720p 解析度及多種畫面比例。

Grok Imagine Video 在 WaveSpeedAI 上的費用是多少?

Grok Imagine Video 在 WaveSpeedAI 上每秒收費 $0.055。典型的 6 秒影片費用為 $0.33,無訂閱費或最低消費要求。

我可以透過 API 使用 Grok Imagine Video 嗎?

可以。WaveSpeedAI 為 Grok Imagine Video 提供 REST API,零冷啟動,即時推理。您可以使用 WaveSpeed Python SDK 或標準 HTTP 請求將其整合到任何應用程式中。

Grok Imagine Video 支援哪些畫面比例?

Grok Imagine Video 支援七種畫面比例:16:9、9:16、4:3、3:4、3:2、2:3 和 1:1——涵蓋所有主要社群媒體平台和標準影片格式。

Grok Imagine Video 與 Sora 和 Veo 相比如何?

Grok Imagine Video 目前在 Artificial Analysis 的文字轉影片生成排名中位居第一,並在人工評估中對陣 Runway 錄得 64.1% 的勝率。它在指令遵循和場景級風格準確性方面尤為出色,同時透過 WaveSpeedAI 的推理平台提供具競爭力的定價。

立即在 WaveSpeedAI 上使用 Grok Imagine 生成影片

Grok Imagine Video 文字轉影片現已在 WaveSpeedAI 上線,隨時可用——無需候補名單、零冷啟動、無訂閱費用。描述您能想像的任何場景,在數秒內獲得電影級畫面。

立即試用 Grok Imagine Video 文字轉影片 →