← 部落格

Vidu Q3 Reference To Video 現已登陸WaveSpeedAI

Vidu Q3 Reference-to-Video Mix 可根據 1-4 張參考圖片與文字提示生成多實體一致性影片,支援 360p 至 1080p 解析度。

By WaveSpeedAI 3 min read
Vidu Q3 Reference To Video Vidu Q3 Reference-to-Video Mix 可根據 1-4 張參考圖片與文字提示生成多實體一致性影片,...
Try it

Vidu Q3 Reference-to-Video:從參考圖像生成多實體一致性影片

在生成式 AI 領域中,創建具有一致角色的 AI 生成影片一直是最困難的問題之一——直到現在。Vidu Q3 Reference-to-Video Mix 透過將 1–4 張參考圖像與文字提示結合,生成電影級、多實體一致性影片,解決了這一挑戰。今日起在 WaveSpeedAI 上線,無冷啟動延遲,採按秒計費,讓創作者、行銷人員和開發者都能製作角色驅動的影片內容,從第一幀到最後一幀,每個主體都保持視覺上的連貫性。

Vidu Q3 Reference-to-Video 由盛數科技打造——這支團隊同時也是全球頂尖 Vidu 影片生成平台的幕後推手——代表著從單張圖像動畫的一大飛躍。無需擔心角色在不同片段之間的外觀不一致,只需提供參考圖像來鎖定身份、風格與外觀,再描述您想要的場景即可。最終輸出的是可直接用於製作的影片,具備同步音頻、最高 1080p 解析度,以及長達 16 秒的時長。

立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video →

Vidu Q3 Reference-to-Video 運作方式

Vidu Q3 Reference-to-Video 採用盛數科技專有的 U-ViT(通用視覺 Transformer)架構,專為多實體一致性而設計。工作流程如下:

  1. 上傳 1–4 張參考圖像 — 用於建立您希望在輸出影片中保留的角色、物件或風格元素的視覺身份。
  2. 撰寫文字提示 — 描述場景、動作、鏡頭運動與氛圍。內建的提示增強器可自動優化您的描述,帶來更豐富的輸出效果。
  3. 設定輸出參數 — 選擇畫面比例(16:9、9:16、1:1 等)、解析度(480p、720p 或 1080p)以及時長(最長 16 秒)。
  4. 生成 — 模型將所有參考圖像融合成一段連貫、動作一致的影片,並可選擇同步生成音頻。

與標準圖像轉影片模型的差異在於多參考融合。傳統模型僅能對單張圖像進行動畫化處理。Vidu Q3 Reference-to-Video 則能將多張來源圖像——不同角色、不同角度、不同風格參考——融合成單一統一場景,同時在整段影片中保留每個實體的獨特身份。

技術規格

參數詳情
輸入1–4 張參考圖像 + 文字提示
解析度480p、720p、1080p
時長最長 16 秒
畫面比例16:9、9:16、1:1 等
音頻原生同步音頻生成(可選)
可重現性種子參數確保結果一致

Vidu Q3 Reference-to-Video Mix 核心功能

  • 多實體角色一致性 — 為不同角色上傳獨立參考圖像,兩者都將出現在輸出影片中並保留各自的身份特徵。幀間「角色漂移」問題將成為歷史。
  • 原生音畫同步生成 — Vidu Q3 是業界首個在單次生成中同步輸出音頻與影片的長影片 AI 模型,包括環境音效、對話口型同步以及氛圍音頻。
  • 1080p 原生渲染 — 全高清輸出,無人工放大。即便在高對比度場景中,畫面仍清晰、細緻、均衡。
  • 每段最長 16 秒 — 在主流 AI 影片模型中最長的最大時長,讓您有足夠時間完整呈現產品演示、故事弧線和電影序列。
  • 內建提示增強器 — 自動豐富場景描述,無需提示工程專業知識即可獲得更細緻的電影感輸出。
  • 種子控制確保確定性輸出 — 鎖定特定結果,在保持相同創作方向的前提下,對解析度或時長進行調整迭代。

Vidu Q3 Reference-to-Video 最佳應用場景

角色驅動的故事創作與動畫製作

跨多集創作角色一致的動畫系列。上傳角色設定稿,生成一幕又一幕的場景,確保主角每次出現都保持相同外觀。盛數科技在 2026 年 SXSW 上展示了這一能力,呈現了全球首個動畫系列製作的 AI 解決方案——而 Vidu Q3 Reference-to-Video 正是其核心引擎。

具有一致品牌角色的社交媒體內容

品牌吉祥物和網紅虛擬形象需要在每一條內容中保持相同的外觀。只需上傳一次品牌角色的參考圖像,即可生成數十段適用於 TikTok、Instagram Reels 或 YouTube Shorts 的短影片——全部視覺一致,全部在幾分鐘而非幾天內完成。

產品行銷與電商影片

無需攝影棚,即可將您的產品置於動態電影場景中。上傳多角度的產品照片,撰寫描述生活情境的提示,生成展示產品實際使用場景的行銷影片。多參考輸入有助於模型理解產品的三維結構,從而實現更精確的渲染。

創意概念開發與分鏡原型製作

當您能向利害關係人展示真實影片而非靜態畫面時,提案簡報和分鏡腳本將更加生動有力。上傳每個角色的參考圖像並描述互動場景,快速製作多角色場景原型。以 480p 快速迭代,再以 1080p 渲染已確認的概念。

音樂影片與短片製作

結合多個角色參考與氛圍提示,生成音樂影片序列。借助原生音頻生成功能,您甚至可以同步生成與視覺輸出相配的環境音景——然後在後期製作中疊加自己的配樂。

風格一致的影片系列

在整個內容系列中維持統一的視覺美學。每次生成時上傳相同的風格參考圖像,確保您品牌的視覺風格保持一致,無論是製作 5 段還是 50 段影片。

立即開始生成一致性影片內容 →

Vidu Q3 Reference-to-Video 定價與 API 存取

WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供簡明的按秒計費方式,無需訂閱。

定價表

時長480p720p / 1080p
5 秒$0.35$0.77
10 秒$0.70$1.54
15 秒$1.05$2.31

計費費率:

  • 480p: 每秒 $0.07
  • 720p / 1080p: 每秒 $0.154

API 整合

透過 WaveSpeedAI 的 REST API,將 Vidu Q3 Reference-to-Video 直接整合至您的應用程式。無冷啟動、無需配置 GPU——只需發送請求即可獲取影片。

import wavespeed

output = wavespeed.run(
    "vidu/q3/reference-to-video",
    {
        "prompt": "Two characters walking through a sunlit forest, cinematic lighting, gentle breeze",
        "images": [
            "https://example.com/character1.jpg",
            "https://example.com/character2.jpg"
        ],
        "resolution": "1080p",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL

WaveSpeedAI 優勢:

  • 無冷啟動 — 模型始終保持就緒狀態,隨時可生成
  • 按使用量付費 — 無訂閱費,無最低消費限制
  • REST API — 標準 HTTP 整合,適用於任何語言或框架

探索 WaveSpeedAI 上的完整 Vidu 模型系列,獲取更多影片生成功能。

Vidu Q3 Reference-to-Video 最佳使用技巧

  1. 使用清晰、光線充足的參考圖像 — 高品質、主體清晰的輸入圖像能帶來最精確的身份保留效果。避免使用模糊或過度濾鏡處理的來源圖像。

  2. 從 480p 開始快速迭代 — 在確認要進行 1080p 渲染之前,先以較低解析度測試您的提示和參考圖像組合。這樣可以節省時間和成本。

  3. 盡可能提供多個角度的圖像 — 如果您希望模型全面理解角色的外觀,請同時提供正面和側面的參考圖像。更多參考圖像能讓模型更深入地了解主體的三維結構。

  4. 撰寫詳細、具體的提示 — 不要只寫「兩個人在說話」,而應嘗試「兩個角色坐在咖啡館桌旁,溫暖的下午光線,一人邊說話邊做手勢,淺景深」。如需自動優化,請使用內建提示增強器。

  5. 使用種子參數保持一致性 — 找到滿意的結果後,鎖定種子值,在保持相同創作方向的前提下,對解析度、時長或提示進行微調迭代。

  6. 添加自訂配樂時停用音頻生成 — 如果您計劃在後期製作中添加自訂音樂或旁白,請將 generate_audio 設為 false,以避免音頻層衝突。

關於 Vidu Q3 Reference-to-Video 的常見問題

Vidu Q3 Reference-to-Video 是什麼?

Vidu Q3 Reference-to-Video 是一個 AI 影片生成模型,可將 1–4 張參考圖像與文字提示結合,生成電影級、多實體一致性影片,支援最高 1080p 解析度、最長 16 秒時長,並可選擇同步音頻生成。

Vidu Q3 Reference-to-Video 的費用是多少?

在 WaveSpeedAI 上,480p 的定價為每秒 $0.07,720p/1080p 為每秒 $0.154,無需訂閱——您只需為實際生成的內容付費。

我可以透過 API 使用 Vidu Q3 Reference-to-Video 嗎?

可以。WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供無冷啟動的 REST API。您可以使用 WaveSpeed Python SDK 或標準 HTTP 請求,將其整合至任何應用程式。

Vidu Q3 Reference-to-Video 支援多少張參考圖像?

每次生成可上傳 1 至 4 張參考圖像。每張圖像都有助於模型理解您希望在輸出影片中保留的角色、風格或視覺元素。

Vidu Q3 Reference-to-Video 能生成音頻嗎?

可以。Vidu Q3 預設啟用原生同步音頻生成,能在輸出影片的同時生成環境音效與氛圍音頻。如果您偏好在後期製作中自行添加音頻,可以停用此功能。


準備好從您自己的參考圖像創作角色一致的 AI 影片了嗎?立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video — 無冷啟動、無需訂閱,直接見證成果。