← 博客

Alibaba WAN 2.7 Reference To Video 现已登陆WaveSpeedAI

WAN 2.7 Reference-to-Video 可将图像或视频中的角色、道具或场景参考转化为保留原始身份、风格与构图的全新视频片段

2 min read
Alibaba Wan.2.7 Reference To Video WAN 2.7 Reference-to-Video 可将图像或视频中的角色、道具或场景参考转化为保留原始身份、风格与构...
Try it

Wan 2.7 参考视频生成:从多个参考素材创作角色一致的AI视频

在AI生成视频片段中保持角色身份的一致性,一直是生成式视频领域最棘手的难题——直到现在。阿里巴巴通义实验室推出的 Wan 2.7 参考视频生成(Reference-to-Video)解决了这一问题:你只需提供多个参考视频和图像,模型便能生成全新场景,其中角色、道具和视觉风格都保持完美一致。该模型现已在 WaveSpeedAI 上线,无冷启动延迟,按需付费,通过简单的 REST API 即可实现生产级的多角色视频生成。

无论你是需要预可视化复杂场景的电影人、打造代言人营销活动的品牌方,还是构建多镜头叙事内容的创作者,Wan 2.7 参考视频生成都能彻底消除困扰AI视频工作流已久的不一致性问题。

Wan 2.7 参考视频生成的工作原理

Wan 2.7 参考视频生成基于阿里巴巴的扩散变换器(DiT)架构,结合全注意力(Full Attention)机制,能够同时处理整个视频序列中的空间与时间关系。这正是角色身份在完整片段时长内保持稳定的原因——模型并非逐帧生成,而是一次性理解整个序列。

工作流程十分直观:

  1. 上传参考视频 — 提供一个或多个包含目标角色或视觉元素的源视频。
  2. 添加可选参考图像 — 补充一张静态图像,提供额外的视觉引导。
  3. 撰写提示词 — 用自然语言描述新场景,通过位置引用角色(例如:“视频1中的角色走过花园,而视频2中的角色坐在长椅上观看”)。
  4. 生成 — 模型将生成一段新视频,将你引用的角色置于描述的场景中,同时保留其身份、风格和连贯的动作。

该模型最多支持5个组合参考输入(视频和图像合计),输出分辨率支持720p或1080p,宽高比包括16:9,片段时长可选5秒、10秒或15秒。独特的提示词索引系统让你精准控制每个参考素材的出现位置——视频按上传顺序编号(视频1、视频2),图像继续顺序编号(图像3、图像4)。

Wan 2.7 参考视频生成的核心功能

  • 多视频参考支持 — 将来自多个源视频的角色、物体或视觉元素合成为单一连贯场景。同类模型中,没有其他模型能如此干净地处理多源视频参考。

  • 身份锁定的角色一致性 — 全注意力架构在生成片段中保留面部特征、服装、身体比例和风格细节,避免了旧版扩散式视频模型中常见的身份漂移问题。

  • 精准控制的提示词索引 — 在提示词中使用”视频1”、“视频2”、“图像3”等语法引用特定角色,赋予你导演级别的场景控制权。

  • 负面提示词支持 — 指定需要从输出中排除的元素,防止参考源之间出现意外的视觉混合。

  • 自动提示词扩展 — 启用提示词扩展,让模型自动为简短提示词补充细节,无需手动进行提示词工程即可获得更丰富的输出。

  • 1080p输出 — 以全高清分辨率生成可直接用于生产的成品,或在创作迭代阶段使用720p加快速度。

  • 每段最长15秒 — 生成更长的场景,让角色有足够的时间移动、互动和表达——足以用于社交媒体短片和商业剪辑。

Wan 2.7 参考视频生成的最佳使用场景

多角色叙事与短片创作

将来自不同参考视频的角色放入他们从未实际共同拍摄过的场景中。电影人可以分别拍摄演员,再使用 Wan 2.7 R2V 生成互动场景——角色坐在一起、并肩行走,或在全新环境中对话。这大幅降低了独立项目和预可视化的制作成本。

品牌代言人视频营销活动

营销团队可以生成数十个保持品牌形象的视频变体,展示一致的品牌代言人或吉祥物。只需上传一次品牌角色的参考视频,便可在不同场景中生成其出镜画面——厨房、办公室、户外——同时在整个营销活动中保持完美的视觉身份,无需重新拍摄。

规模化社交媒体内容

内容创作者可以批量生产角色一致的短视频。取一段固定角色或人设的参考视频,描述新场景,每天生成新鲜内容。身份保留功能确保受众在每篇帖子中都能认出该角色,无需高昂制作成本即可建立品牌一致性。

产品演示与说明视频

将主持人参考视频与产品图像结合,生成精良的演示视频。主持人的外貌和风格得以保留,同时在新情境中与产品互动——非常适合电商详情页、新品发布和教程内容。

创意概念与故事板制作

导演和创意团队可以在投入全面制作之前快速制作多角色场景原型。在数分钟内生成10个不同布局、灯光或角色互动的场景变体,以720p快速迭代,找到最佳方案后再以1080p渲染最终版本。

粉丝创作与角色跨界

将来自不同来源的视觉元素合成为单一连贯场景。来自不同参考视频的角色可以自然地互动,为同人创作、混搭内容和实验性视觉叙事开辟广阔的创作空间。

培训与教育内容

在多个课程中生成风格一致的讲师主导视频内容。只需上传一次讲师的参考视频,便可在不同教育场景中呈现其形象——站在白板前、在实验室里、在户外——在整个系列课程中保持视觉连贯性。

Wan 2.7 参考视频生成的定价与API接入

WaveSpeedAI 提供 Wan 2.7 参考视频生成服务,按次生成定价清晰透明:

时长720p1080p
5秒$1.00$1.60
10秒$1.50$2.40
15秒$2.00$3.20

1080p渲染费用为720p的1.6倍,定价中已包含参考视频处理的固定开销。

入门只需几分钟。安装 WaveSpeed SDK 并发起第一个API调用:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "视频1中的角色走过阳光明媚的花园,微笑着欣赏花朵",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAI 运行 Wan 2.7 参考视频生成时无冷启动——第一个请求与第一百个请求一样快速。无GPU预置延迟,无闲置算力费用,你只需为实际生成的内容付费。

立即体验 Wan 2.7 参考视频生成 →

使用 Wan 2.7 参考视频生成的最佳实践

  • 使用清晰、视觉区分度高的参考视频。 每个参考视频的视觉差异越明显,模型在输出中保留每个角色身份的效果越好。避免使用外观相近的参考素材。

  • 在提示词中按索引引用角色。 始终使用”视频1”、“视频2”等指定每个角色的行为。编号按视频上传顺序排列,之后继续为参考图像编号。

  • 迭代阶段先用720p。 在提交1080p最终渲染之前,先以720p测试场景构图、提示词措辞和角色定位,既节省时间又节省成本。

  • 使用负面提示词防止视觉混合。 如果发现参考源之间出现视觉风格渗透,可添加负面提示词来排除特定的不需要元素。

  • 简短提示词时启用提示词扩展。 如果你的提示词较简洁或缺乏场景细节,开启提示词扩展可让模型自动补充电影级细节。

  • 保持参考视频简短且主题集中。 清晰呈现目标对象的参考片段,比内容冗长、变化较多的素材能产生更好的身份一致性。

关于 Wan 2.7 参考视频生成的常见问题

Wan 2.7 参考视频生成是什么?

Wan 2.7 参考视频生成是阿里巴巴推出的AI视频生成模型,能够在创作全新视频场景的同时,保留参考视频和图像中角色的身份、外貌和风格。

Wan 2.7 参考视频生成的费用是多少?

定价起步为每段5秒720p视频 $1.00,最高至每段15秒1080p视频 $3.20。无需订阅费——在WaveSpeedAI上按次生成付费。

可以通过API使用 Wan 2.7 参考视频生成吗?

可以。Wan 2.7 参考视频生成在WaveSpeedAI上以REST API形式提供,无冷启动,按使用量付费,并支持WaveSpeed Python SDK轻松集成。

一次最多可以使用多少个参考视频?

最多可提供5个组合参考输入(视频和图像合计)。每个参考素材在提示词中按顺序编号,以精确控制每个角色的出现位置。

Wan 2.7 参考视频生成与 Wan 2.7 图像转视频有何不同?

Wan 2.7 图像转视频 将单张参考图像转化为视频动画。而参考视频生成接受多个视频参考,跨源保留身份一致性,并支持具有一致身份的多角色场景——这是一项本质上不同的能力,专为生产工作流设计。

开始使用 Wan 2.7 创作角色一致的视频

Wan 2.7 参考视频生成带来了此前AI视频生成领域无法实现的能力:从视频参考中可靠地保留多角色身份。结合WaveSpeedAI的即时推理和简洁API,它已准备好投入今天的生产工作流。

在WaveSpeedAI上探索完整的 Wan 2.7 系列——包括文本转视频图像转视频视频编辑视频延伸

在WaveSpeedAI上立即体验 Wan 2.7 参考视频生成 →