← 博客

Alibaba WAN 2.6 Reference To Video 现已登陆WaveSpeedAI

Alibaba WAN 2.6 Reference-to-Video 可将角色、道具或场景参考(单视角或多视角)转化为新的视频片段,同时保留身份特征、风格和布局,并具有流畅、连贯的运动效果。提供即用型 REST 推理 API,性能卓越,无冷启动,价格实惠。

By WaveSpeedAI 1 min read
Alibaba Wan.2.6 Reference To Video
Alibaba Wan.2.6 Reference To Video Alibaba WAN 2.6 Reference-to-Video 可将角色、道具或场景参考(单视角或多视角)转化为新...
Try it
Alibaba WAN 2.6 Reference To Video 现已登陆WaveSpeedAI

阿里巴巴 WAN 2.6 参考视频生成现已在 WaveSpeedAI 上线

AI 视频生成领域刚刚迎来了一个新的里程碑。WaveSpeedAI 热烈宣布 阿里巴巴 WAN 2.6 参考视频生成(Reference-to-Video) 正式上线,这一突破性模型彻底改变了创作者在角色身份、风格一致性和电影级叙事方面的工作方式。该模型于 2025 年 12 月 16 日由阿里巴巴发布,标志着参考驱动视频生成领域的重大飞跃。

什么是 WAN 2.6 参考视频生成?

WAN 2.6 参考视频生成(R2V)是阿里巴巴万象 2.6 模型的专项功能,专为将示例视频与文本提示词转化为全新的专业级视频镜头而设计。该技术允许您提供最多两段参考视频,模型从中学习风格、运动模式、镜头语言和构图方式,进而生成全新的 5-10 秒视频,分辨率最高可达 1080p。

这一模型真正革命性之处在于其跨代际的身份保持能力。无论您处理的是角色、道具还是完整场景,WAN 2.6 R2V 都能在实现创意转化的同时维持视觉一致性。这是中国首个具备多模态参考能力的参考视频生成模型,可将主体无缝融入 AI 生成的场景中,实现视觉与音频的高度一致。

核心功能

  • 参考驱动生成:上传 1-2 段参考视频,模型即可捕捉其精髓——镜头运动、节奏、构图与视觉风格——同时根据您的文本提示实现创意引导

  • 身份保持:在生成的镜头中保持角色外貌、声音特征和视觉身份的一致性,解决了 AI 视频领域长期存在的核心挑战

  • 电影级分辨率:支持 720p(1280×720 或 720×1280)或 1080p(1920×1080 或 1080×1920)输出,适用于 YouTube、TikTok、Instagram Reels 及专业制作

  • 多镜头叙事:通过多镜头模式实现智能分镜,模型可将您的提示词拆解为多个连贯镜头,并生成流畅的转场效果

  • 音频就绪流程:可选音频字段支持运动与外部音轨同步的工作流,实现音画一体的沉浸体验

  • 提示词扩展:阿里巴巴内置的提示词优化器可将简短描述转化为丰富的内部脚本,无需专业级提示词工程即可提升生成质量

  • 灵活时长控制:可选择 5 秒快速镜头或 10 秒延长序列,满足更复杂的动作与叙事需求

实际应用场景

影视与视频制作

快速生成分镜故事板、预可视化序列或制作级视觉特效镜头。迁移参考素材中的镜头语言与节奏,同时引入新角色或对场景进行全面改造。

内容创作与社交媒体

创作带有说话角色的叙事视频,大幅降低拍摄成本。生成产品视频、开箱序列和品牌商业片,实现传统拍摄难以完成或成本高昂的内容创作。

营销与广告

制作写实级产品演示和创意原型。在探索创意变体的同时,保持多个生成素材之间的品牌一致性。

教育与培训

生成具有一致角色形象的虚拟讲师和互动学习内容,大规模制作引人入胜的教育材料。

风格迁移与创意探索

用一段参考视频提取镜头运动与动作,用另一段提取光影与视觉风格。跨不同素材混合风格元素,打造独特的视觉签名。

WAN 2.6 的竞争优势

在近期的行业横向对比中,WAN 2.6 在角色一致性和口型同步方面表现尤为突出——在保持跨帧身份稳定的同时,精确匹配口型与语音。相比 Sora 2 在环境一致性和物理模拟方面的优势,WAN 2.6 更专注于演员表演,是以角色为核心内容的直觉型创作伙伴。

该模型对英文和中文提示词均有强大的语言理解能力,可精准解析复杂脚本,渲染细节丰富的场景与表演。其原生多模态架构在深层次上理解分镜指令,实现”AI 导演”级能力,让专业级制作触手可及。

在 WaveSpeedAI 上快速上手

在 WaveSpeedAI 上使用 WAN 2.6 参考视频生成非常简单:

  1. 准备参考素材:上传 1-2 段运动清晰、构图稳定、视觉风格鲜明的参考视频。同一场景的多角度素材或风格相近的视频效果最佳。

  2. 撰写提示词:描述新视频中应发生的内容——角色、动作、环境、镜头运动、情绪与风格。重点聚焦于新场景,而非仅仅复述参考内容。

  3. 配置参数:选择分辨率(720p 或 1080p)、时长(5 秒或 10 秒),并按需启用多镜头模式或提示词扩展。

  4. 生成视频:提交请求并获取生成结果。使用固定随机种子可在迭代构图时保持结果一致性。

定价

分辨率5 秒10 秒
720p$1.00$1.50
1080p$1.50$2.25

直接访问模型:https://wavespeed.ai/models/alibaba/wan-2.6/reference-to-video

为什么选择 WaveSpeedAI?

WaveSpeedAI 为 WAN 2.6 参考视频生成提供最优性能的基础设施:

  • 无冷启动:请求立即开始处理,无需等待模型初始化
  • 快速推理:优化的基础设施快速交付结果,支持创意项目的高效迭代
  • 亲民定价:以具有竞争力的价格获取前沿 AI 视频生成能力,让各规模创作者都能轻松制作专业级内容
  • 简洁 REST API:将参考视频生成能力直接集成到您的工作流和应用程序中

立即开始创作

阿里巴巴 WAN 2.6 参考视频生成代表着 AI 视频生成的根本性转变——从孤立的帧级创作迈向连贯的、可保持身份一致性的叙事表达。无论您是正在预可视化场景的电影人、打造个人品牌的内容创作者,还是制作营销素材的广告团队,这一模型都能提供专业工作所需的创意掌控力与一致性保障。

视频创作的未来已经到来。访问 WaveSpeedAI,立即开始生成具有身份保持、风格统一和电影级画质的参考驱动视频。