Alibaba WAN 2.7 Reference To Video 现已登陆WaveSpeedAI

Wan 2.7 参考视频生成：从多个参考素材创作角色一致的AI视频

在AI生成视频片段中保持角色身份的一致性，一直是生成式视频领域最棘手的难题——直到现在。阿里巴巴通义实验室推出的 Wan 2.7 参考视频生成（Reference-to-Video）解决了这一问题：你只需提供多个参考视频和图像，模型便能生成全新场景，其中角色、道具和视觉风格都保持完美一致。该模型现已在 WaveSpeedAI 上线，无冷启动延迟，按需付费，通过简单的 REST API 即可实现生产级的多角色视频生成。

无论你是需要预可视化复杂场景的电影人、打造代言人营销活动的品牌方，还是构建多镜头叙事内容的创作者，Wan 2.7 参考视频生成都能彻底消除困扰AI视频工作流已久的不一致性问题。

Wan 2.7 参考视频生成的工作原理

Wan 2.7 参考视频生成基于阿里巴巴的扩散变换器（DiT）架构，结合全注意力（Full Attention）机制，能够同时处理整个视频序列中的空间与时间关系。这正是角色身份在完整片段时长内保持稳定的原因——模型并非逐帧生成，而是一次性理解整个序列。

工作流程十分直观：

上传参考视频 — 提供一个或多个包含目标角色或视觉元素的源视频。
添加可选参考图像 — 补充一张静态图像，提供额外的视觉引导。
撰写提示词 — 用自然语言描述新场景，通过位置引用角色（例如：“视频1中的角色走过花园，而视频2中的角色坐在长椅上观看”）。
生成 — 模型将生成一段新视频，将你引用的角色置于描述的场景中，同时保留其身份、风格和连贯的动作。

该模型最多支持5个组合参考输入（视频和图像合计），输出分辨率支持720p或1080p，宽高比包括16:9，片段时长可选5秒、10秒或15秒。独特的提示词索引系统让你精准控制每个参考素材的出现位置——视频按上传顺序编号（视频1、视频2），图像继续顺序编号（图像3、图像4）。

Wan 2.7 参考视频生成的核心功能

多视频参考支持 — 将来自多个源视频的角色、物体或视觉元素合成为单一连贯场景。同类模型中，没有其他模型能如此干净地处理多源视频参考。
身份锁定的角色一致性 — 全注意力架构在生成片段中保留面部特征、服装、身体比例和风格细节，避免了旧版扩散式视频模型中常见的身份漂移问题。
精准控制的提示词索引 — 在提示词中使用”视频1”、“视频2”、“图像3”等语法引用特定角色，赋予你导演级别的场景控制权。
负面提示词支持 — 指定需要从输出中排除的元素，防止参考源之间出现意外的视觉混合。
自动提示词扩展 — 启用提示词扩展，让模型自动为简短提示词补充细节，无需手动进行提示词工程即可获得更丰富的输出。
1080p输出 — 以全高清分辨率生成可直接用于生产的成品，或在创作迭代阶段使用720p加快速度。
每段最长15秒 — 生成更长的场景，让角色有足够的时间移动、互动和表达——足以用于社交媒体短片和商业剪辑。

Wan 2.7 参考视频生成的最佳使用场景

多角色叙事与短片创作

将来自不同参考视频的角色放入他们从未实际共同拍摄过的场景中。电影人可以分别拍摄演员，再使用 Wan 2.7 R2V 生成互动场景——角色坐在一起、并肩行走，或在全新环境中对话。这大幅降低了独立项目和预可视化的制作成本。

品牌代言人视频营销活动

营销团队可以生成数十个保持品牌形象的视频变体，展示一致的品牌代言人或吉祥物。只需上传一次品牌角色的参考视频，便可在不同场景中生成其出镜画面——厨房、办公室、户外——同时在整个营销活动中保持完美的视觉身份，无需重新拍摄。

规模化社交媒体内容

内容创作者可以批量生产角色一致的短视频。取一段固定角色或人设的参考视频，描述新场景，每天生成新鲜内容。身份保留功能确保受众在每篇帖子中都能认出该角色，无需高昂制作成本即可建立品牌一致性。

产品演示与说明视频

将主持人参考视频与产品图像结合，生成精良的演示视频。主持人的外貌和风格得以保留，同时在新情境中与产品互动——非常适合电商详情页、新品发布和教程内容。

创意概念与故事板制作

导演和创意团队可以在投入全面制作之前快速制作多角色场景原型。在数分钟内生成10个不同布局、灯光或角色互动的场景变体，以720p快速迭代，找到最佳方案后再以1080p渲染最终版本。

粉丝创作与角色跨界

将来自不同来源的视觉元素合成为单一连贯场景。来自不同参考视频的角色可以自然地互动，为同人创作、混搭内容和实验性视觉叙事开辟广阔的创作空间。

培训与教育内容

在多个课程中生成风格一致的讲师主导视频内容。只需上传一次讲师的参考视频，便可在不同教育场景中呈现其形象——站在白板前、在实验室里、在户外——在整个系列课程中保持视觉连贯性。

Wan 2.7 参考视频生成的定价与API接入

WaveSpeedAI 提供 Wan 2.7 参考视频生成服务，按次生成定价清晰透明：

时长	720p	1080p
5秒	$1.00	$1.60
10秒	$1.50	$2.40
15秒	$2.00	$3.20

1080p渲染费用为720p的1.6倍，定价中已包含参考视频处理的固定开销。

入门只需几分钟。安装 WaveSpeed SDK 并发起第一个API调用：

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "视频1中的角色走过阳光明媚的花园，微笑着欣赏花朵",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAI 运行 Wan 2.7 参考视频生成时无冷启动——第一个请求与第一百个请求一样快速。无GPU预置延迟，无闲置算力费用，你只需为实际生成的内容付费。

立即体验 Wan 2.7 参考视频生成 →

使用 Wan 2.7 参考视频生成的最佳实践

使用清晰、视觉区分度高的参考视频。 每个参考视频的视觉差异越明显，模型在输出中保留每个角色身份的效果越好。避免使用外观相近的参考素材。
在提示词中按索引引用角色。 始终使用”视频1”、“视频2”等指定每个角色的行为。编号按视频上传顺序排列，之后继续为参考图像编号。
迭代阶段先用720p。 在提交1080p最终渲染之前，先以720p测试场景构图、提示词措辞和角色定位，既节省时间又节省成本。
使用负面提示词防止视觉混合。 如果发现参考源之间出现视觉风格渗透，可添加负面提示词来排除特定的不需要元素。
简短提示词时启用提示词扩展。 如果你的提示词较简洁或缺乏场景细节，开启提示词扩展可让模型自动补充电影级细节。
保持参考视频简短且主题集中。 清晰呈现目标对象的参考片段，比内容冗长、变化较多的素材能产生更好的身份一致性。

关于 Wan 2.7 参考视频生成的常见问题

Wan 2.7 参考视频生成是什么？

Wan 2.7 参考视频生成是阿里巴巴推出的AI视频生成模型，能够在创作全新视频场景的同时，保留参考视频和图像中角色的身份、外貌和风格。

Wan 2.7 参考视频生成的费用是多少？

定价起步为每段5秒720p视频 $1.00，最高至每段15秒1080p视频 $3.20。无需订阅费——在WaveSpeedAI上按次生成付费。

可以通过API使用 Wan 2.7 参考视频生成吗？

可以。Wan 2.7 参考视频生成在WaveSpeedAI上以REST API形式提供，无冷启动，按使用量付费，并支持WaveSpeed Python SDK轻松集成。

一次最多可以使用多少个参考视频？

最多可提供5个组合参考输入（视频和图像合计）。每个参考素材在提示词中按顺序编号，以精确控制每个角色的出现位置。

Wan 2.7 参考视频生成与 Wan 2.7 图像转视频有何不同？

Wan 2.7 图像转视频将单张参考图像转化为视频动画。而参考视频生成接受多个视频参考，跨源保留身份一致性，并支持具有一致身份的多角色场景——这是一项本质上不同的能力，专为生产工作流设计。

开始使用 Wan 2.7 创作角色一致的视频

Wan 2.7 参考视频生成带来了此前AI视频生成领域无法实现的能力：从视频参考中可靠地保留多角色身份。结合WaveSpeedAI的即时推理和简洁API，它已准备好投入今天的生产工作流。

在WaveSpeedAI上探索完整的 Wan 2.7 系列——包括文本转视频、图像转视频、视频编辑和视频延伸。

在WaveSpeedAI上立即体验 Wan 2.7 参考视频生成 →