Vidu Q3 Reference To Video 現已登陸WaveSpeedAI
Vidu Q3 Reference-to-Video Mix 可根據 1-4 張參考圖片與文字提示生成多實體一致性影片,支援 360p 至 1080p 解析度。
Vidu Q3 Reference-to-Video:從參考圖像生成多實體一致性影片
在生成式 AI 領域中,創建具有一致角色的 AI 生成影片一直是最困難的問題之一——直到現在。Vidu Q3 Reference-to-Video Mix 透過將 1–4 張參考圖像與文字提示結合,生成電影級、多實體一致性影片,解決了這一挑戰。今日起在 WaveSpeedAI 上線,無冷啟動延遲,採按秒計費,讓創作者、行銷人員和開發者都能製作角色驅動的影片內容,從第一幀到最後一幀,每個主體都保持視覺上的連貫性。
Vidu Q3 Reference-to-Video 由盛數科技打造——這支團隊同時也是全球頂尖 Vidu 影片生成平台的幕後推手——代表著從單張圖像動畫的一大飛躍。無需擔心角色在不同片段之間的外觀不一致,只需提供參考圖像來鎖定身份、風格與外觀,再描述您想要的場景即可。最終輸出的是可直接用於製作的影片,具備同步音頻、最高 1080p 解析度,以及長達 16 秒的時長。
立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video →
Vidu Q3 Reference-to-Video 運作方式
Vidu Q3 Reference-to-Video 採用盛數科技專有的 U-ViT(通用視覺 Transformer)架構,專為多實體一致性而設計。工作流程如下:
- 上傳 1–4 張參考圖像 — 用於建立您希望在輸出影片中保留的角色、物件或風格元素的視覺身份。
- 撰寫文字提示 — 描述場景、動作、鏡頭運動與氛圍。內建的提示增強器可自動優化您的描述,帶來更豐富的輸出效果。
- 設定輸出參數 — 選擇畫面比例(16:9、9:16、1:1 等)、解析度(480p、720p 或 1080p)以及時長(最長 16 秒)。
- 生成 — 模型將所有參考圖像融合成一段連貫、動作一致的影片,並可選擇同步生成音頻。
與標準圖像轉影片模型的差異在於多參考融合。傳統模型僅能對單張圖像進行動畫化處理。Vidu Q3 Reference-to-Video 則能將多張來源圖像——不同角色、不同角度、不同風格參考——融合成單一統一場景,同時在整段影片中保留每個實體的獨特身份。
技術規格
| 參數 | 詳情 |
|---|---|
| 輸入 | 1–4 張參考圖像 + 文字提示 |
| 解析度 | 480p、720p、1080p |
| 時長 | 最長 16 秒 |
| 畫面比例 | 16:9、9:16、1:1 等 |
| 音頻 | 原生同步音頻生成(可選) |
| 可重現性 | 種子參數確保結果一致 |
Vidu Q3 Reference-to-Video Mix 核心功能
- 多實體角色一致性 — 為不同角色上傳獨立參考圖像,兩者都將出現在輸出影片中並保留各自的身份特徵。幀間「角色漂移」問題將成為歷史。
- 原生音畫同步生成 — Vidu Q3 是業界首個在單次生成中同步輸出音頻與影片的長影片 AI 模型,包括環境音效、對話口型同步以及氛圍音頻。
- 1080p 原生渲染 — 全高清輸出,無人工放大。即便在高對比度場景中,畫面仍清晰、細緻、均衡。
- 每段最長 16 秒 — 在主流 AI 影片模型中最長的最大時長,讓您有足夠時間完整呈現產品演示、故事弧線和電影序列。
- 內建提示增強器 — 自動豐富場景描述,無需提示工程專業知識即可獲得更細緻的電影感輸出。
- 種子控制確保確定性輸出 — 鎖定特定結果,在保持相同創作方向的前提下,對解析度或時長進行調整迭代。
Vidu Q3 Reference-to-Video 最佳應用場景
角色驅動的故事創作與動畫製作
跨多集創作角色一致的動畫系列。上傳角色設定稿,生成一幕又一幕的場景,確保主角每次出現都保持相同外觀。盛數科技在 2026 年 SXSW 上展示了這一能力,呈現了全球首個動畫系列製作的 AI 解決方案——而 Vidu Q3 Reference-to-Video 正是其核心引擎。
具有一致品牌角色的社交媒體內容
品牌吉祥物和網紅虛擬形象需要在每一條內容中保持相同的外觀。只需上傳一次品牌角色的參考圖像,即可生成數十段適用於 TikTok、Instagram Reels 或 YouTube Shorts 的短影片——全部視覺一致,全部在幾分鐘而非幾天內完成。
產品行銷與電商影片
無需攝影棚,即可將您的產品置於動態電影場景中。上傳多角度的產品照片,撰寫描述生活情境的提示,生成展示產品實際使用場景的行銷影片。多參考輸入有助於模型理解產品的三維結構,從而實現更精確的渲染。
創意概念開發與分鏡原型製作
當您能向利害關係人展示真實影片而非靜態畫面時,提案簡報和分鏡腳本將更加生動有力。上傳每個角色的參考圖像並描述互動場景,快速製作多角色場景原型。以 480p 快速迭代,再以 1080p 渲染已確認的概念。
音樂影片與短片製作
結合多個角色參考與氛圍提示,生成音樂影片序列。借助原生音頻生成功能,您甚至可以同步生成與視覺輸出相配的環境音景——然後在後期製作中疊加自己的配樂。
風格一致的影片系列
在整個內容系列中維持統一的視覺美學。每次生成時上傳相同的風格參考圖像,確保您品牌的視覺風格保持一致,無論是製作 5 段還是 50 段影片。
Vidu Q3 Reference-to-Video 定價與 API 存取
WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供簡明的按秒計費方式,無需訂閱。
定價表
| 時長 | 480p | 720p / 1080p |
|---|---|---|
| 5 秒 | $0.35 | $0.77 |
| 10 秒 | $0.70 | $1.54 |
| 15 秒 | $1.05 | $2.31 |
計費費率:
- 480p: 每秒 $0.07
- 720p / 1080p: 每秒 $0.154
API 整合
透過 WaveSpeedAI 的 REST API,將 Vidu Q3 Reference-to-Video 直接整合至您的應用程式。無冷啟動、無需配置 GPU——只需發送請求即可獲取影片。
import wavespeed
output = wavespeed.run(
"vidu/q3/reference-to-video",
{
"prompt": "Two characters walking through a sunlit forest, cinematic lighting, gentle breeze",
"images": [
"https://example.com/character1.jpg",
"https://example.com/character2.jpg"
],
"resolution": "1080p",
"duration": 10
},
)
print(output["outputs"][0]) # Video URL
WaveSpeedAI 優勢:
- 無冷啟動 — 模型始終保持就緒狀態,隨時可生成
- 按使用量付費 — 無訂閱費,無最低消費限制
- REST API — 標準 HTTP 整合,適用於任何語言或框架
探索 WaveSpeedAI 上的完整 Vidu 模型系列,獲取更多影片生成功能。
Vidu Q3 Reference-to-Video 最佳使用技巧
-
使用清晰、光線充足的參考圖像 — 高品質、主體清晰的輸入圖像能帶來最精確的身份保留效果。避免使用模糊或過度濾鏡處理的來源圖像。
-
從 480p 開始快速迭代 — 在確認要進行 1080p 渲染之前,先以較低解析度測試您的提示和參考圖像組合。這樣可以節省時間和成本。
-
盡可能提供多個角度的圖像 — 如果您希望模型全面理解角色的外觀,請同時提供正面和側面的參考圖像。更多參考圖像能讓模型更深入地了解主體的三維結構。
-
撰寫詳細、具體的提示 — 不要只寫「兩個人在說話」,而應嘗試「兩個角色坐在咖啡館桌旁,溫暖的下午光線,一人邊說話邊做手勢,淺景深」。如需自動優化,請使用內建提示增強器。
-
使用種子參數保持一致性 — 找到滿意的結果後,鎖定種子值,在保持相同創作方向的前提下,對解析度、時長或提示進行微調迭代。
-
添加自訂配樂時停用音頻生成 — 如果您計劃在後期製作中添加自訂音樂或旁白,請將
generate_audio設為 false,以避免音頻層衝突。
關於 Vidu Q3 Reference-to-Video 的常見問題
Vidu Q3 Reference-to-Video 是什麼?
Vidu Q3 Reference-to-Video 是一個 AI 影片生成模型,可將 1–4 張參考圖像與文字提示結合,生成電影級、多實體一致性影片,支援最高 1080p 解析度、最長 16 秒時長,並可選擇同步音頻生成。
Vidu Q3 Reference-to-Video 的費用是多少?
在 WaveSpeedAI 上,480p 的定價為每秒 $0.07,720p/1080p 為每秒 $0.154,無需訂閱——您只需為實際生成的內容付費。
我可以透過 API 使用 Vidu Q3 Reference-to-Video 嗎?
可以。WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供無冷啟動的 REST API。您可以使用 WaveSpeed Python SDK 或標準 HTTP 請求,將其整合至任何應用程式。
Vidu Q3 Reference-to-Video 支援多少張參考圖像?
每次生成可上傳 1 至 4 張參考圖像。每張圖像都有助於模型理解您希望在輸出影片中保留的角色、風格或視覺元素。
Vidu Q3 Reference-to-Video 能生成音頻嗎?
可以。Vidu Q3 預設啟用原生同步音頻生成,能在輸出影片的同時生成環境音效與氛圍音頻。如果您偏好在後期製作中自行添加音頻,可以停用此功能。
準備好從您自己的參考圖像創作角色一致的 AI 影片了嗎?立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video — 無冷啟動、無需訂閱,直接見證成果。


