阿里巴巴 WAN 2.6 Reference To Video Flash 现已登陆WaveSpeedAI

阿里巴巴 WAN 2.6 参考图生视频 Flash 现已登陆 WaveSpeedAI

速度与一致性的完美结合。WaveSpeedAI 很高兴宣布推出 阿里巴巴 WAN 2.6 参考图生视频 Flash，这是阿里巴巴身份保留视频生成模型的快速蒸馏版本。如果你一直在使用参考图生视频工作流程，并希望结果返回得更快，这个模型正是为你而生——以更短的生成时间提供同样的角色一致性和多镜头叙事效果。

什么是 WAN 2.6 参考图生视频 Flash？

WAN 2.6 参考图生视频 Flash 是标准 WAN 2.6 参考图生视频模型的速度优化版本。它从完整模型蒸馏而来，保留了 WAN 2.6 R2V 系列独特的核心能力：你上传角色、道具或场景的参考图片，编写描述所需视频的文本提示，模型便会生成新的视频镜头，忠实保留参考对象的身份和外观。

Flash 版本实现了显著更快的推理速度——在数秒而非数分钟内生成视频——同时保持了 WAN 2.6 系列标志性的视觉质量、动作连贯性和身份保留能力。它支持最多 5 张参考图片、720p 和 1080p 输出、5 秒或 10 秒时长，以及可选的同步音频生成。

核心功能

多参考图输入：上传最多 5 张参考图片来引导生成。同一对象的多角度视图能带来更好的身份保留效果——相较于典型的单参考图工作流程，这是一次重大升级
高速身份保留：Flash 模型在每一个生成帧中都能保持参考对象的面部特征、服装、体型比例和独特外貌，同时大幅缩短等待时间
多镜头合成：可选择单个连续镜头，或自动多镜头合成——将你的提示词分解为多个连贯镜头并配以平滑过渡——一次 API 调用即可实现电影级叙事
内置音频生成：可选开启同步音频，包括背景音乐、环境音效和拟音效果，与生成的视频内容相匹配。无需后期制作配音
分辨率灵活选择：支持 720p（1280×720 或 720×1280）或 1080p（1920×1080 或 1080×1920）生成，横版或竖版均可，满足不同输出需求
提示词扩展：内置提示词增强功能，可自动将你的描述优化为更丰富、更详细的提示词，无需专业提示词工程即可提升生成质量

实际应用场景

角色驱动的社交媒体内容

创作在多个视频中保持角色一致性的 TikTok、Reels 和 YouTube Shorts。上传角色或品牌吉祥物的几张照片，描述场景，即可大规模生成符合品牌调性的内容。Flash 的速度使快速迭代变得切实可行——在标准模型只能生成几个版本的时间里，你可以测试数十种变体。

营销与广告原型制作

生成产品演示、品牌广告和活动概念，让特定人物或角色在所有镜头中保持一致的身份。使用多镜头模式生成带有同步音频的结构化广告序列，将数天的前期制作压缩为几分钟。

叙事故事创作与动画制作

构建角色在场景变换中保持外观一致的短叙事序列。多参考图功能让你在单次生成中设定多个角色，而多镜头模式则自动处理过渡和节奏。编剧和分镜师几乎可以在描述场景的同时完成可视化。

影视快速预可视化

导演和摄影师可以使用演员和场地的参考照片对镜头和序列进行预可视化。Flash 模型的速度实现了实时创意反馈循环——调整提示词、重新生成、几秒内看到结果，无需等待漫长的渲染队列。

电商与产品视频

将静态产品照片转化为具有一致品牌形象的动态产品视频。上传产品图片作为参考，描述所需的动作和环境，生成可直接用于商品页面和广告的精美视频内容。

在 WaveSpeedAI 上快速上手

通过 WaveSpeedAI API 使用 WAN 2.6 参考图生视频 Flash 非常简单：

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.6/reference-to-video-flash",
    {
        "reference_urls": [
            "https://example.com/character-front.jpg",
            "https://example.com/character-side.jpg"
        ],
        "prompt": "A woman walks through a sunlit garden, turning to smile at the camera",
        "size": "1280*720",
        "duration": 5,
        "shot_type": "multi"
    },
)

print(output["outputs"][0])

配置参数说明

参数	说明
`reference_urls`	1-5 张用于角色和场景引导的参考图片
`prompt`	视频场景和动作的文字描述
`size`	输出分辨率：720p 或 1080p，横版或竖版
`duration`	视频时长：5 秒或 10 秒
`shot_type`	`single` 为单个连续镜头，`multi` 为多样化合成构图
`enable_audio`	生成同步音频（默认开启）
`enable_prompt_expansion`	自动增强提示词（默认关闭）