Vidu Q3 Reference To Video 現已登陸WaveSpeedAI

Vidu Q3 Reference-to-Video：從參考圖像生成多實體一致性影片

在生成式 AI 領域中，創建具有一致角色的 AI 生成影片一直是最困難的問題之一——直到現在。Vidu Q3 Reference-to-Video Mix 透過將 1–4 張參考圖像與文字提示結合，生成電影級、多實體一致性影片，解決了這一挑戰。今日起在 WaveSpeedAI 上線，無冷啟動延遲，採按秒計費，讓創作者、行銷人員和開發者都能製作角色驅動的影片內容，從第一幀到最後一幀，每個主體都保持視覺上的連貫性。

Vidu Q3 Reference-to-Video 由盛數科技打造——這支團隊同時也是全球頂尖 Vidu 影片生成平台的幕後推手——代表著從單張圖像動畫的一大飛躍。無需擔心角色在不同片段之間的外觀不一致，只需提供參考圖像來鎖定身份、風格與外觀，再描述您想要的場景即可。最終輸出的是可直接用於製作的影片，具備同步音頻、最高 1080p 解析度，以及長達 16 秒的時長。

立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video →

Vidu Q3 Reference-to-Video 運作方式

Vidu Q3 Reference-to-Video 採用盛數科技專有的 U-ViT（通用視覺 Transformer）架構，專為多實體一致性而設計。工作流程如下：

上傳 1–4 張參考圖像 — 用於建立您希望在輸出影片中保留的角色、物件或風格元素的視覺身份。
撰寫文字提示 — 描述場景、動作、鏡頭運動與氛圍。內建的提示增強器可自動優化您的描述，帶來更豐富的輸出效果。
設定輸出參數 — 選擇畫面比例（16:9、9:16、1:1 等）、解析度（480p、720p 或 1080p）以及時長（最長 16 秒）。
生成 — 模型將所有參考圖像融合成一段連貫、動作一致的影片，並可選擇同步生成音頻。

與標準圖像轉影片模型的差異在於多參考融合。傳統模型僅能對單張圖像進行動畫化處理。Vidu Q3 Reference-to-Video 則能將多張來源圖像——不同角色、不同角度、不同風格參考——融合成單一統一場景，同時在整段影片中保留每個實體的獨特身份。

技術規格

參數	詳情
輸入	1–4 張參考圖像 + 文字提示
解析度	480p、720p、1080p
時長	最長 16 秒
畫面比例	16:9、9:16、1:1 等
音頻	原生同步音頻生成（可選）
可重現性	種子參數確保結果一致

Vidu Q3 Reference-to-Video Mix 核心功能

多實體角色一致性 — 為不同角色上傳獨立參考圖像，兩者都將出現在輸出影片中並保留各自的身份特徵。幀間「角色漂移」問題將成為歷史。
原生音畫同步生成 — Vidu Q3 是業界首個在單次生成中同步輸出音頻與影片的長影片 AI 模型，包括環境音效、對話口型同步以及氛圍音頻。
1080p 原生渲染 — 全高清輸出，無人工放大。即便在高對比度場景中，畫面仍清晰、細緻、均衡。
每段最長 16 秒 — 在主流 AI 影片模型中最長的最大時長，讓您有足夠時間完整呈現產品演示、故事弧線和電影序列。
內建提示增強器 — 自動豐富場景描述，無需提示工程專業知識即可獲得更細緻的電影感輸出。
種子控制確保確定性輸出 — 鎖定特定結果，在保持相同創作方向的前提下，對解析度或時長進行調整迭代。

Vidu Q3 Reference-to-Video 最佳應用場景

角色驅動的故事創作與動畫製作

跨多集創作角色一致的動畫系列。上傳角色設定稿，生成一幕又一幕的場景，確保主角每次出現都保持相同外觀。盛數科技在 2026 年 SXSW 上展示了這一能力，呈現了全球首個動畫系列製作的 AI 解決方案——而 Vidu Q3 Reference-to-Video 正是其核心引擎。

具有一致品牌角色的社交媒體內容

品牌吉祥物和網紅虛擬形象需要在每一條內容中保持相同的外觀。只需上傳一次品牌角色的參考圖像，即可生成數十段適用於 TikTok、Instagram Reels 或 YouTube Shorts 的短影片——全部視覺一致，全部在幾分鐘而非幾天內完成。

產品行銷與電商影片

無需攝影棚，即可將您的產品置於動態電影場景中。上傳多角度的產品照片，撰寫描述生活情境的提示，生成展示產品實際使用場景的行銷影片。多參考輸入有助於模型理解產品的三維結構，從而實現更精確的渲染。

創意概念開發與分鏡原型製作

當您能向利害關係人展示真實影片而非靜態畫面時，提案簡報和分鏡腳本將更加生動有力。上傳每個角色的參考圖像並描述互動場景，快速製作多角色場景原型。以 480p 快速迭代，再以 1080p 渲染已確認的概念。

音樂影片與短片製作

結合多個角色參考與氛圍提示，生成音樂影片序列。借助原生音頻生成功能，您甚至可以同步生成與視覺輸出相配的環境音景——然後在後期製作中疊加自己的配樂。

風格一致的影片系列

在整個內容系列中維持統一的視覺美學。每次生成時上傳相同的風格參考圖像，確保您品牌的視覺風格保持一致，無論是製作 5 段還是 50 段影片。

立即開始生成一致性影片內容 →

Vidu Q3 Reference-to-Video 定價與 API 存取

WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供簡明的按秒計費方式，無需訂閱。

定價表

時長	480p	720p / 1080p
5 秒	$0.35	$0.77
10 秒	$0.70	$1.54
15 秒	$1.05	$2.31

計費費率：

480p： 每秒 $0.07
720p / 1080p： 每秒 $0.154

API 整合

透過 WaveSpeedAI 的 REST API，將 Vidu Q3 Reference-to-Video 直接整合至您的應用程式。無冷啟動、無需配置 GPU——只需發送請求即可獲取影片。

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg"
    ],
    "aspect_ratio": "16:9",
    "resolution": "720p",
    "duration": 5,
    "generate_audio": True
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/vidu/q3/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

WaveSpeedAI 優勢：

無冷啟動 — 模型始終保持就緒狀態，隨時可生成
按使用量付費 — 無訂閱費，無最低消費限制
REST API — 標準 HTTP 整合，適用於任何語言或框架

探索 WaveSpeedAI 上的完整 Vidu 模型系列，獲取更多影片生成功能。

Vidu Q3 Reference-to-Video 最佳使用技巧

使用清晰、光線充足的參考圖像 — 高品質、主體清晰的輸入圖像能帶來最精確的身份保留效果。避免使用模糊或過度濾鏡處理的來源圖像。
從 480p 開始快速迭代 — 在確認要進行 1080p 渲染之前，先以較低解析度測試您的提示和參考圖像組合。這樣可以節省時間和成本。
盡可能提供多個角度的圖像 — 如果您希望模型全面理解角色的外觀，請同時提供正面和側面的參考圖像。更多參考圖像能讓模型更深入地了解主體的三維結構。
撰寫詳細、具體的提示 — 不要只寫「兩個人在說話」，而應嘗試「兩個角色坐在咖啡館桌旁，溫暖的下午光線，一人邊說話邊做手勢，淺景深」。如需自動優化，請使用內建提示增強器。
使用種子參數保持一致性 — 找到滿意的結果後，鎖定種子值，在保持相同創作方向的前提下，對解析度、時長或提示進行微調迭代。
添加自訂配樂時停用音頻生成 — 如果您計劃在後期製作中添加自訂音樂或旁白，請將 generate_audio 設為 false，以避免音頻層衝突。

關於 Vidu Q3 Reference-to-Video 的常見問題

Vidu Q3 Reference-to-Video 是什麼？

Vidu Q3 Reference-to-Video 是一個 AI 影片生成模型，可將 1–4 張參考圖像與文字提示結合，生成電影級、多實體一致性影片，支援最高 1080p 解析度、最長 16 秒時長，並可選擇同步音頻生成。

Vidu Q3 Reference-to-Video 的費用是多少？

在 WaveSpeedAI 上，480p 的定價為每秒 $0.07，720p/1080p 為每秒 $0.154，無需訂閱——您只需為實際生成的內容付費。

我可以透過 API 使用 Vidu Q3 Reference-to-Video 嗎？

可以。WaveSpeedAI 為 Vidu Q3 Reference-to-Video 提供無冷啟動的 REST API。您可以使用 WaveSpeed Python SDK 或標準 HTTP 請求，將其整合至任何應用程式。

Vidu Q3 Reference-to-Video 支援多少張參考圖像？

每次生成可上傳 1 至 4 張參考圖像。每張圖像都有助於模型理解您希望在輸出影片中保留的角色、風格或視覺元素。

Vidu Q3 Reference-to-Video 能生成音頻嗎？

可以。Vidu Q3 預設啟用原生同步音頻生成，能在輸出影片的同時生成環境音效與氛圍音頻。如果您偏好在後期製作中自行添加音頻，可以停用此功能。

準備好從您自己的參考圖像創作角色一致的 AI 影片了嗎？立即在 WaveSpeedAI 試用 Vidu Q3 Reference-to-Video — 無冷啟動、無需訂閱，直接見證成果。