Alibaba WAN 2.6 Reference To Video Flash現已登陸WaveSpeedAI

Alibaba WAN 2.6 Reference-to-Video Flash 現已登陸 WaveSpeedAI

速度與一致性的完美結合。WaveSpeedAI 隆重宣布 Alibaba WAN 2.6 Reference-to-Video Flash 正式上線——這是 Alibaba 身份保持影片生成模型的快速精煉版本。如果您一直在使用參考影像轉影片的工作流程，並希望結果能更快呈現，這個模型正是為您而生——在極短的生成時間內，提供相同的角色一致性與多鏡頭敘事能力。

什麼是 WAN 2.6 Reference-to-Video Flash？

WAN 2.6 Reference-to-Video Flash 是標準 WAN 2.6 Reference-to-Video 模型的速度優化版本。從完整模型精煉而來，它保留了 WAN 2.6 R2V 系列的核心能力：您上傳角色、道具或場景的參考圖像，撰寫描述所需影片的文字提示，模型便會生成忠實保留參考主體身份與外觀的全新影片片段。

Flash 版本實現了顯著更快的推理速度——在幾秒內而非幾分鐘內生成影片——同時維持了 WAN 2.6 系列標誌性的視覺品質、動作連貫性與身份保持能力。它支援最多 5 張參考圖像、720p 與 1080p 輸出、5 秒或 10 秒的時長，以及可選的同步音頻生成。

主要功能

多參考圖像輸入：上傳最多 5 張參考圖像以引導生成。同一主體的多個角度與視角能帶來更好的身份保持效果——相較於典型的單一參考工作流程，這是一次重大升級
高速身份保持：Flash 模型在每一個生成幀中維持參考主體的面部特徵、服裝、身體比例及獨特特徵，等待時間大幅縮短
多鏡頭構圖：選擇單一連續鏡頭，或選擇自動多鏡頭構圖——將您的提示自動分解為多個連貫鏡頭並加入流暢轉場——僅需一次 API 呼叫即可實現電影級敘事
內建音頻生成：啟用可選的同步音頻，包括背景音樂、環境音效和擬音效果，與生成的影片內容完美匹配，無需後製配音
解析度靈活性：支援 720p（1280×720 或 720×1280）或 1080p（1920×1080 或 1080×1920）生成，以符合您的輸出需求——橫向或縱向皆可
提示詞擴展：內建提示詞增強器可自動將您的描述精煉為更豐富、更詳細的提示詞，在無需專業提示工程的情況下提升生成品質

實際應用場景

角色驅動的社群媒體內容

製作在多支影片中呈現一致角色的 TikTok、Reels 和 YouTube Shorts。上傳幾張您的角色或品牌吉祥物的照片，描述場景，即可大規模生成符合品牌形象的內容。Flash 的速度使快速迭代成為可能——在標準模型生成少數幾個版本的時間內，您可以測試數十種變化。

行銷與廣告原型製作

生成展示特定人物或角色的產品展示、品牌廣告和活動概念，在所有鏡頭中保持一致的身份識別。使用多鏡頭模式生成結構化廣告序列，並附帶同步音頻，將數天的前製時間縮短至幾分鐘。

敘事故事與動畫

構建角色在場景變換中保持外觀一致的短篇敘事序列。多參考功能讓您在單次生成中建立多個角色，而多鏡頭模式自動處理轉場與節奏。編劇和故事板藝術家幾乎可以在構思場景的同時將其視覺化。

電影快速前期視覺化

導演和攝影師可以使用演員和場景的參考照片對鏡頭和序列進行前期視覺化。Flash 模型的速度實現了即時創意反饋循環——調整提示詞、重新生成，幾秒內即可看到結果，無需等待漫長的渲染佇列。

電商與產品影片

將靜態產品照片轉化為具有一致品牌形象的動態產品影片。上傳產品圖像作為參考，描述所需的動作和環境，生成可直接用於商品列表和廣告的精緻影片內容。

在 WaveSpeedAI 上開始使用

透過 WaveSpeedAI API 使用 WAN 2.6 Reference-to-Video Flash 非常簡單：

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.6/reference-to-video-flash",
    {
        "reference_urls": [
            "https://example.com/character-front.jpg",
            "https://example.com/character-side.jpg"
        ],
        "prompt": "A woman walks through a sunlit garden, turning to smile at the camera",
        "size": "1280*720",
        "duration": 5,
        "shot_type": "multi"
    },
)

print(output["outputs"][0])

配置選項

參數	說明
`reference_urls`	1-5 張用於角色和場景引導的參考圖像
`prompt`	影片場景與動作的文字描述
`size`	輸出解析度：720p 或 1080p，橫向或縱向
`duration`	影片長度：5 秒或 10 秒
`shot_type`	`single` 為單一連續鏡頭，`multi` 為多樣化構圖
`enable_audio`	生成同步音頻（預設啟用）
`enable_prompt_expansion`	自動增強您的提示詞（預設停用）