Alibaba WAN 2.7 Reference To Video 現已登陸WaveSpeedAI

Wan 2.7 Reference-to-Video：從多個參考素材生成角色一致的 AI 影片

在 AI 生成影片中保持角色身份的一致性，一直是生成式影片領域最棘手的難題——直到現在。阿里巴巴通義實驗室推出的 Wan 2.7 Reference-to-Video 解決了這個問題，讓你能夠輸入多個參考影片和圖片，生成角色、道具和視覺風格完全一致的全新場景。該模型現已在 WaveSpeedAI 上線，無冷啟動延遲，按使用量付費，價格實惠，透過簡單的 REST API 即可實現生產級多角色影片生成。

無論你是需要預視化複雜場景的電影製作人、打造代言人廣告活動的品牌方，還是構建多鏡頭敘事的內容創作者，Wan 2.7 Reference-to-Video 都能消除 AI 影片工作流程中長期存在的不一致問題。

Wan 2.7 Reference-to-Video 的運作原理

Wan 2.7 Reference-to-Video 建構於阿里巴巴的擴散 Transformer（DiT）架構之上，採用全注意力（Full Attention）機制，能夠同時處理整個影片序列的空間與時間關係。這正是角色身份在完整片段時長內保持穩定的原因——該模型並非逐幀生成，而是一次性理解整個序列。

工作流程十分直觀：

上傳參考影片 — 提供一個或多個包含你想保留之角色或視覺元素的來源影片。
新增可選的參考圖片 — 補充靜態圖片以提供額外的視覺引導。
撰寫提示詞 — 用自然語言描述新場景，透過位置引用角色（例如：「影片 1 中的角色走過花園，影片 2 中的角色坐在長椅上觀看」）。
生成 — 模型將生成一段新影片，將你引用的角色置於描述的場景中，同時保留其身份、風格，並呈現連貫的動作。

該模型最多支援 5 個組合參考輸入（影片與圖片合計），輸出解析度支援 720p 或 1080p，畫面比例包含 16:9，片段時長可選 5 秒、10 秒或 15 秒。獨特的提示詞索引系統讓你精確控制各參考素材的出現位置——影片依序編號（影片 1、影片 2），圖片接續編號（圖片 3、圖片 4）。

Wan 2.7 Reference-to-Video 的核心功能

多影片參考支援 — 將多個來源影片中的角色、物件或視覺元素組合成單一連貫場景。同類模型中，沒有其他模型能如此乾淨地處理多來源影片參考。
身份鎖定的角色一致性 — 全注意力架構在生成片段中保留面部特徵、服裝、體型比例和風格細節，避免舊式擴散影片模型常見的身份漂移問題。
提示詞索引精準控制 — 在提示詞中使用「影片 1」、「影片 2」、「圖片 3」語法引用特定角色。這讓你擁有導演級別的控制權，決定生成場景中每個角色的行為。
負面提示詞支援 — 指定要從輸出中排除的元素，防止參考來源之間出現意外的視覺混合。
自動提示詞擴展 — 啟用提示詞擴展，讓模型為較短的提示詞補充更多細節，無需手動進行提示詞工程即可獲得更豐富的輸出。
1080p 輸出 — 以全高清解析度生成可供生產使用的成果，或使用 720p 在創作過程中快速迭代。
每段最長 15 秒 — 生成較長的場景，讓角色有足夠時間移動、互動和表達——足以用於社群媒體短片和商業剪輯。

Wan 2.7 Reference-to-Video 的最佳使用場景

多角色敘事與短片創作

將來自不同參考影片的角色置於從未共同拍攝過的共享場景中。電影製作人可以分別拍攝演員，再使用 Wan 2.7 R2V 生成互動場景——角色坐在一起、並肩而行，或在全新環境中進行對話。這大幅降低了獨立製作和前期視覺化的製作成本。

品牌代言人影片行銷活動

行銷團隊可以生成數十個具有一致品牌形象、以固定品牌代言人或吉祥物為主角的影片版本。只需上傳一次品牌角色的參考影片，即可生成其在不同場景中的畫面——廚房、辦公室、戶外——同時在整個行銷活動中保持完美的視覺身份一致性。無需重新拍攝。

規模化社群媒體內容

內容創作者可以大量生產角色一致的短影片。拍攝一個常駐角色或人設的參考影片，描述全新場景，每天生成新鮮內容。身份保留功能確保你的受眾在每篇貼文中都能認出這個角色，無需額外製作開銷即可建立品牌一致性。

產品示範與說明影片

將主持人的參考影片與產品圖片結合，生成精緻的示範影片。主持人在全新情境中與產品互動時，其外觀和風格始終如一——非常適合電商商品頁面、新品發布和教學內容。

創意構思與分鏡規劃

導演和創意團隊可以在投入完整製作之前，快速製作多角色場景的原型。在幾分鐘內生成 10 個具有不同走位、燈光或角色互動的場景版本。使用 720p 快速迭代，確定最佳方案後再以 1080p 渲染。

粉絲創作與角色跨界

將來自不同來源的視覺元素組合成單一連貫場景。來自不同參考影片的角色可以自然地互動，為粉絲藝術、混搭和實驗性視覺敘事開創無限創作可能。

培訓與教育內容

跨多個課程生成一致的講師主導影片內容。只需上傳一次講師的參考影片，即可生成其在不同教學場景中的畫面——在白板前、在實驗室、在現場——在整個課程系列中保持視覺連貫性。

Wan 2.7 Reference-to-Video 定價與 API 存取

WaveSpeedAI 提供 Wan 2.7 Reference-to-Video 的簡明按次計費定價：

時長	720p	1080p
5 秒	$1.00	$1.60
10 秒	$1.50	$2.40
15 秒	$2.00	$3.20

1080p 渲染費用為 720p 的 1.6 倍。定價包含參考影片處理的固定基礎費用。

開始使用只需幾分鐘。安裝 WaveSpeed SDK 並發出你的第一個 API 呼叫：

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.7/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

WaveSpeedAI 運行 Wan 2.7 Reference-to-Video 時無冷啟動——你的第一個請求與第一百個請求一樣快速。無 GPU 配置延遲，無閒置運算費用。你只需為實際生成的內容付費。

立即試用 Wan 2.7 Reference-to-Video →

Wan 2.7 Reference-to-Video 最佳使用技巧

使用清晰、明顯不同的參考影片。 每個參考影片在視覺上越具辨識度，模型就能越好地在輸出中保留每個角色的身份。避免使用外觀相似的參考對象。
在提示詞中按索引引用角色。 務必使用「影片 1」、「影片 2」等方式指定哪個角色做什麼。編號依上傳順序排列（影片在前，參考圖片接續編號）。
迭代時從 720p 開始。 在確定 1080p 最終渲染之前，先以 720p 測試場景構圖、提示詞措辭和角色定位。這能節省時間和成本。
使用負面提示詞防止混合。 如果發現參考來源之間出現視覺風格滲透，請新增負面提示詞以排除特定不需要的元素。
為簡短提示詞啟用提示詞擴展。 如果你的提示詞簡短或缺乏場景細節，開啟提示詞擴展可讓模型自動補充電影級細節。
保持參考影片簡短且主題集中。 清楚呈現你想保留之對象的參考片段，比冗長、多變的素材能產生更好的身份一致性。

Wan 2.7 Reference-to-Video 常見問題

什麼是 Wan 2.7 Reference-to-Video？

Wan 2.7 Reference-to-Video 是阿里巴巴推出的 AI 影片生成模型，能夠在創建全新影片場景的同時，保留參考影片和圖片中角色的身份、外觀和風格。

Wan 2.7 Reference-to-Video 的費用是多少？

定價從 720p 的 5 秒片段 $1.00 起，最高到 1080p 的 15 秒影片 $3.20。無需訂閱費——在 WaveSpeedAI 上按次生成付費。

我可以透過 API 使用 Wan 2.7 Reference-to-Video 嗎？

可以。Wan 2.7 Reference-to-Video 在 WaveSpeedAI 上以 REST API 形式提供，無冷啟動，按使用量計費，並提供 WaveSpeed Python SDK 便於整合。

我最多可以同時使用幾個參考影片？

你最多可提供 5 個組合參考輸入（影片與圖片合計）。每個參考在提示詞中依序編號，讓你精確控制每個角色的出現位置。

Wan 2.7 Reference-to-Video 與 Wan 2.7 Image-to-Video 有何不同？

Wan 2.7 Image-to-Video 將單張參考圖片動畫化為影片。Reference-to-Video 接受多個影片參考，跨來源保留身份，並實現具有一致身份的多角色場景——這是一種從根本上不同的能力，專為生產工作流程而設計。

開始使用 Wan 2.7 創作角色一致的影片

Wan 2.7 Reference-to-Video 帶來了 AI 影片生成領域前所未有的能力：從影片參考中實現可靠的多角色身份保留。結合 WaveSpeedAI 的即時推理和簡單 API，它已準備好投入今日的生產工作流程。

在 WaveSpeedAI 上探索完整的 Wan 2.7 系列——包括 Text-to-Video、Image-to-Video、Video Edit 和 Video Extend。

在 WaveSpeedAI 上試用 Wan 2.7 Reference-to-Video →