← 博客

阿里巴巴 WAN 2.7 图像转视频现已登陆WaveSpeedAI

WAN 2.7 支持将图像转换为视频(720p/1080p),可选音频,支持首尾帧控制。即用型 REST 推理 API,性能卓越

By WaveSpeedAI 2 min read
Alibaba Wan.2.7 Image To Video WAN 2.7 支持将图像转换为视频(720p/1080p),可选音频,支持首尾帧控制。即用型 REST 推理 API,...
Try it

Wan 2.7 图生视频:将任意照片转化为电影级视频,支持首尾帧精准控制

静态图片能讲述故事,而动态画面才能真正打动人心。阿里巴巴最新推出的图生视频模型 Wan 2.7 现已登陆 WaveSpeedAI,可将单张参考照片转化为 720p 或 1080p 的电影级视频片段,并支持可选的音频同步、负面提示词控制,以及业内罕见的首尾帧锁定功能。对于需要精准视觉连贯性而非”随机动画”的创作者、营销人员和开发者而言,这次发布填补了 AI 视频生成 API 领域最重要的一块空缺。

立即前往 Wan 2.7 图生视频模型页面 体验。

Wan 2.7 图生视频的工作原理

Wan 2.7 图生视频是一个以参考图像为锚点的视频扩散模型。您只需提供一张起始帧图像,用自然语言描述运动效果和氛围,模型便会生成流畅的动态片段,同时忠实还原源图像的外观、光影和构图。与从头凭空生成画面的纯文生视频模型不同,Wan 2.7 将输出牢牢锚定在您照片的视觉特征上——同一角色、产品或场景将从第一帧延续到最后一帧。

Wan 2.7 在图生视频模型中的核心优势:

  • 双帧引导:同时提供 image(起始帧)和 last_image(结束帧),模型将在两者之间插值出连贯的运动路径,实现脚本化转场而非随机猜测。
  • 原生音频调节:传入 audio 音轨,生成的视频将同步匹配节奏、韵律和情绪——适用于音乐驱动内容和唇形对齐场景。
  • 分辨率灵活切换:通过同一 REST 接口,可在 720p 标准输出和 1080p 高清输出之间自由选择。
  • 时长精准控制:通过单一 duration 参数生成 5 秒、10 秒或 15 秒片段,无需分段处理。

开发者关注的技术规格:必填输入为 imageprompt;可选输入包括 last_imageaudionegative_promptresolutiondurationenable_prompt_expansion 以及用于可复现结果的 seed

Wan 2.7 图生视频核心功能

  • 图像锚定生成,保障视觉一致性 — 参考照片中的主体身份、服装、光影和背景构图均被完整保留,确保品牌资产和角色形象始终如一。
  • 首尾帧控制,实现叙事精准 — 精确定义镜头的起点和终点。这是竞品图生视频 API 中最缺失的功能,也是 Wan 2.7 非常适合分镜脚本创作的核心原因。
  • 音频输入,实现音乐同步视频 — 上传配乐或配音,模型将根据音频节奏匹配画面运动。无需再手动对齐 AI 视频片段与音乐节拍。
  • 负面提示词支持,优化输出质量 — 在 negative_prompt 字段中列出模糊面孔、变形手部或不必要的背景动效等问题,有效消除瑕疵。
  • 提示词扩展,优化短提示词效果 — 开启 enable_prompt_expansion,模型将在生成前自动丰富简短提示词,非常适合提示词工程难以规模化的批量流水线。
  • 最高 1080p 输出,按秒计费清晰透明 — 按生成量付费,WaveSpeedAI 无最低消费,无冷启动。

Wan 2.7 图生视频最佳应用场景

单张参考图的电影级照片动态化

摄影师和创作者可以将单张静态图片——人像、风景、产品图——制作成 5 至 15 秒的动态短片,无需另行拍摄。Wan 2.7 的参考图锚定功能确保照片中的主体保持高度一致,使婚礼人像成为珍贵的动态纪念影像,而非面目全非的陌生人。

首尾帧脚本化场景转场

分镜师、广告人和短片导演可以提供起始帧和结束帧,让 Wan 2.7 自动补全中间的运动过程。这使模型成为视觉叙事的可控”补间动画”引擎——适用于镜头运动、角色变换,或需要结束帧精准落点的产品前后对比展示。

规模化社交媒体内容生产

Reels、TikTok 和 Shorts 都青睐动态内容。坐拥大量静态产品图库的品牌可以将其转化为吸引眼球的竖版视频。结合 enable_prompt_expansion 与批量 API 调用,小型社交团队无需视频编辑介入,每周即可发布数十个动画变体。

音乐视频与视听叙事

可选的 audio 参数使 Wan 2.7 成为独立音乐人、播客视频剪辑师和歌词视频创作者的理想工具。将一段 10 秒音频与主视觉图和提示词结合,生成的画面运动将跟随节奏律动——将制作周期从数小时压缩至数分钟。

营销、电商与活动动画

推广邮件、付费社交广告和落地页主视觉视频都因动效而获得更高转化率。Wan 2.7 让营销人员无需重新拍摄或购买视频素材,即可为现有活动资产——产品包装图、模特照、生活方式场景——注入动态活力。搭配结束帧 CTA 画面,轻松呈现简洁、符合品牌调性的结尾。

房产与建筑漫游展示

列表照片可转化为伪漫游视频:微妙的推镜运动、光线变化、大气氛围营造。通过 last_image 可引导镜头停留在壁炉或景观窗等核心卖点上。

时尚与美妆产品册

为编辑拍摄的静态图添加发丝、面料和环境动效,赋予其生命力。负面提示词控制在此场景尤为有价值,可有效规避低端图生视频模型中常见的”面部变形”瑕疵。

Wan 2.7 图生视频定价与 API 访问

WaveSpeedAI 上的 Wan 2.7 图生视频按输出时长和分辨率计费:

时长720p1080p
5 秒$0.50$0.75
10 秒$1.00$1.50
15 秒$1.50$2.25

计费规则简单透明:720p 为 $0.10/秒1080p 为 $0.15/秒(高分辨率溢价 1.5 倍)。无订阅套餐,无最低消费。

通过 WaveSpeed Python SDK 调用模型非常简单:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/image-to-video",
    {
        "image": "https://example.com/start-frame.jpg",
        "prompt": "Slow cinematic dolly-in, golden-hour light, gentle wind in the trees",
        "last_image": "https://example.com/end-frame.jpg",
        "resolution": "1080p",
        "duration": 5,
    },
)

print(output["outputs"][0])

同样的调用方式适用于任何语言的 REST 推理 API。WaveSpeedAI 以无冷启动方式运行 Wan 2.7,意味着您的第一次请求与第一千次请求享有同等的热容量——这对具有突发流量的生产工作负载至关重要。

如需在没有参考图像的情况下进行纯文本生成,请参阅 WaveSpeedAI 上的配套模型 Wan 2.7 文生视频

Wan 2.7 图生视频最佳实践

  • 从分辨率高、光线好的参考图开始,确保主体清晰可见。低光或噪点较多的输入会导致动效模糊。
  • 叙事有要求时务必提供 last_image 哪怕只是大致设计的结束帧,也能显著改善运动方向和最终帧构图。
  • 对人物主体积极使用 negative_prompt 添加”模糊面孔、多余手指、变形、文字瑕疵”等短语,通常能有效提升感知质量。
  • 对简短提示词开启提示词扩展。 若提示词不足约 15 个词,建议开启 enable_prompt_expansion,而非手动编写更长的提示词。
  • 找到满意构图后锁定 seed,在不损失画面风格的前提下对分辨率或时长进行迭代调整。
  • 音频时长与视频时长保持一致。 10 秒视频应搭配 10 秒音频文件,以获得最紧密的同步效果。

Wan 2.7 图生视频常见问题

Wan 2.7 图生视频是什么? Wan 2.7 图生视频是阿里巴巴推出的参考图锚定视频生成模型,可将静态图片转化为 720p 或 1080p 的电影级视频片段,支持可选音频、负面提示词及首尾帧控制。

Wan 2.7 图生视频的费用是多少? 定价为 720p $0.10/秒,1080p $0.15/秒——例如,在 WaveSpeedAI 上生成 5 秒 720p 视频费用为 $0.50,15 秒 1080p 视频费用为 $2.25。

Wan 2.7 图生视频支持 API 调用吗? 支持。Wan 2.7 可通过 WaveSpeedAI REST 推理 API 和官方 Python SDK 访问,无冷启动,按使用量付费。

Wan 2.7 支持音频同步视频生成吗? 支持——传入 audio URL 或文件,生成的视频将根据配乐的节奏和情绪匹配画面运动。

首尾帧控制如何工作?image 参数中提供起始帧,在可选的 last_image 参数中提供结束帧,模型将在两者之间插值出连贯的运动路径——非常适合分镜脚本转场和脚本化镜头。

立即开始使用 Wan 2.7 图生视频

无需管理 GPU,无需担忧冷启动——将单张照片转化为支持首尾帧控制、音频同步和 1080p 输出的电影级视频片段。立即体验 WaveSpeedAI 上的 Wan 2.7 图生视频,以 API 速度交付动态内容。