阿里巴巴 WAN 2.7 图像转视频现已登陆WaveSpeedAI
WAN 2.7 支持将图像转换为视频(720p/1080p),可选音频,支持首尾帧控制。即用型 REST 推理 API,性能卓越
Wan 2.7 图生视频:将任意照片转化为电影级视频,支持首尾帧精准控制
静态图片能讲述故事,而动态画面才能真正打动人心。阿里巴巴最新推出的图生视频模型 Wan 2.7 现已登陆 WaveSpeedAI,可将单张参考照片转化为 720p 或 1080p 的电影级视频片段,并支持可选的音频同步、负面提示词控制,以及业内罕见的首尾帧锁定功能。对于需要精准视觉连贯性而非”随机动画”的创作者、营销人员和开发者而言,这次发布填补了 AI 视频生成 API 领域最重要的一块空缺。
立即前往 Wan 2.7 图生视频模型页面 体验。
Wan 2.7 图生视频的工作原理
Wan 2.7 图生视频是一个以参考图像为锚点的视频扩散模型。您只需提供一张起始帧图像,用自然语言描述运动效果和氛围,模型便会生成流畅的动态片段,同时忠实还原源图像的外观、光影和构图。与从头凭空生成画面的纯文生视频模型不同,Wan 2.7 将输出牢牢锚定在您照片的视觉特征上——同一角色、产品或场景将从第一帧延续到最后一帧。
Wan 2.7 在图生视频模型中的核心优势:
- 双帧引导:同时提供
image(起始帧)和last_image(结束帧),模型将在两者之间插值出连贯的运动路径,实现脚本化转场而非随机猜测。 - 原生音频调节:传入
audio音轨,生成的视频将同步匹配节奏、韵律和情绪——适用于音乐驱动内容和唇形对齐场景。 - 分辨率灵活切换:通过同一 REST 接口,可在 720p 标准输出和 1080p 高清输出之间自由选择。
- 时长精准控制:通过单一
duration参数生成 5 秒、10 秒或 15 秒片段,无需分段处理。
开发者关注的技术规格:必填输入为 image 和 prompt;可选输入包括 last_image、audio、negative_prompt、resolution、duration、enable_prompt_expansion 以及用于可复现结果的 seed。
Wan 2.7 图生视频核心功能
- 图像锚定生成,保障视觉一致性 — 参考照片中的主体身份、服装、光影和背景构图均被完整保留,确保品牌资产和角色形象始终如一。
- 首尾帧控制,实现叙事精准 — 精确定义镜头的起点和终点。这是竞品图生视频 API 中最缺失的功能,也是 Wan 2.7 非常适合分镜脚本创作的核心原因。
- 音频输入,实现音乐同步视频 — 上传配乐或配音,模型将根据音频节奏匹配画面运动。无需再手动对齐 AI 视频片段与音乐节拍。
- 负面提示词支持,优化输出质量 — 在
negative_prompt字段中列出模糊面孔、变形手部或不必要的背景动效等问题,有效消除瑕疵。 - 提示词扩展,优化短提示词效果 — 开启
enable_prompt_expansion,模型将在生成前自动丰富简短提示词,非常适合提示词工程难以规模化的批量流水线。 - 最高 1080p 输出,按秒计费清晰透明 — 按生成量付费,WaveSpeedAI 无最低消费,无冷启动。
Wan 2.7 图生视频最佳应用场景
单张参考图的电影级照片动态化
摄影师和创作者可以将单张静态图片——人像、风景、产品图——制作成 5 至 15 秒的动态短片,无需另行拍摄。Wan 2.7 的参考图锚定功能确保照片中的主体保持高度一致,使婚礼人像成为珍贵的动态纪念影像,而非面目全非的陌生人。
首尾帧脚本化场景转场
分镜师、广告人和短片导演可以提供起始帧和结束帧,让 Wan 2.7 自动补全中间的运动过程。这使模型成为视觉叙事的可控”补间动画”引擎——适用于镜头运动、角色变换,或需要结束帧精准落点的产品前后对比展示。
规模化社交媒体内容生产
Reels、TikTok 和 Shorts 都青睐动态内容。坐拥大量静态产品图库的品牌可以将其转化为吸引眼球的竖版视频。结合 enable_prompt_expansion 与批量 API 调用,小型社交团队无需视频编辑介入,每周即可发布数十个动画变体。
音乐视频与视听叙事
可选的 audio 参数使 Wan 2.7 成为独立音乐人、播客视频剪辑师和歌词视频创作者的理想工具。将一段 10 秒音频与主视觉图和提示词结合,生成的画面运动将跟随节奏律动——将制作周期从数小时压缩至数分钟。
营销、电商与活动动画
推广邮件、付费社交广告和落地页主视觉视频都因动效而获得更高转化率。Wan 2.7 让营销人员无需重新拍摄或购买视频素材,即可为现有活动资产——产品包装图、模特照、生活方式场景——注入动态活力。搭配结束帧 CTA 画面,轻松呈现简洁、符合品牌调性的结尾。
房产与建筑漫游展示
列表照片可转化为伪漫游视频:微妙的推镜运动、光线变化、大气氛围营造。通过 last_image 可引导镜头停留在壁炉或景观窗等核心卖点上。
时尚与美妆产品册
为编辑拍摄的静态图添加发丝、面料和环境动效,赋予其生命力。负面提示词控制在此场景尤为有价值,可有效规避低端图生视频模型中常见的”面部变形”瑕疵。
Wan 2.7 图生视频定价与 API 访问
WaveSpeedAI 上的 Wan 2.7 图生视频按输出时长和分辨率计费:
| 时长 | 720p | 1080p |
|---|---|---|
| 5 秒 | $0.50 | $0.75 |
| 10 秒 | $1.00 | $1.50 |
| 15 秒 | $1.50 | $2.25 |
计费规则简单透明:720p 为 $0.10/秒,1080p 为 $0.15/秒(高分辨率溢价 1.5 倍)。无订阅套餐,无最低消费。
通过 WaveSpeed Python SDK 调用模型非常简单:
import wavespeed
output = wavespeed.run(
"alibaba/wan-2.7/image-to-video",
{
"image": "https://example.com/start-frame.jpg",
"prompt": "Slow cinematic dolly-in, golden-hour light, gentle wind in the trees",
"last_image": "https://example.com/end-frame.jpg",
"resolution": "1080p",
"duration": 5,
},
)
print(output["outputs"][0])
同样的调用方式适用于任何语言的 REST 推理 API。WaveSpeedAI 以无冷启动方式运行 Wan 2.7,意味着您的第一次请求与第一千次请求享有同等的热容量——这对具有突发流量的生产工作负载至关重要。
如需在没有参考图像的情况下进行纯文本生成,请参阅 WaveSpeedAI 上的配套模型 Wan 2.7 文生视频。
Wan 2.7 图生视频最佳实践
- 从分辨率高、光线好的参考图开始,确保主体清晰可见。低光或噪点较多的输入会导致动效模糊。
- 叙事有要求时务必提供
last_image。 哪怕只是大致设计的结束帧,也能显著改善运动方向和最终帧构图。 - 对人物主体积极使用
negative_prompt。 添加”模糊面孔、多余手指、变形、文字瑕疵”等短语,通常能有效提升感知质量。 - 对简短提示词开启提示词扩展。 若提示词不足约 15 个词,建议开启
enable_prompt_expansion,而非手动编写更长的提示词。 - 找到满意构图后锁定 seed,在不损失画面风格的前提下对分辨率或时长进行迭代调整。
- 音频时长与视频时长保持一致。 10 秒视频应搭配 10 秒音频文件,以获得最紧密的同步效果。
Wan 2.7 图生视频常见问题
Wan 2.7 图生视频是什么? Wan 2.7 图生视频是阿里巴巴推出的参考图锚定视频生成模型,可将静态图片转化为 720p 或 1080p 的电影级视频片段,支持可选音频、负面提示词及首尾帧控制。
Wan 2.7 图生视频的费用是多少? 定价为 720p $0.10/秒,1080p $0.15/秒——例如,在 WaveSpeedAI 上生成 5 秒 720p 视频费用为 $0.50,15 秒 1080p 视频费用为 $2.25。
Wan 2.7 图生视频支持 API 调用吗? 支持。Wan 2.7 可通过 WaveSpeedAI REST 推理 API 和官方 Python SDK 访问,无冷启动,按使用量付费。
Wan 2.7 支持音频同步视频生成吗?
支持——传入 audio URL 或文件,生成的视频将根据配乐的节奏和情绪匹配画面运动。
首尾帧控制如何工作?
在 image 参数中提供起始帧,在可选的 last_image 参数中提供结束帧,模型将在两者之间插值出连贯的运动路径——非常适合分镜脚本转场和脚本化镜头。
立即开始使用 Wan 2.7 图生视频
无需管理 GPU,无需担忧冷启动——将单张照片转化为支持首尾帧控制、音频同步和 1080p 输出的电影级视频片段。立即体验 WaveSpeedAI 上的 Wan 2.7 图生视频,以 API 速度交付动态内容。


