← 部落格

Alibaba WAN 2.7 圖片轉影片現已登陸WaveSpeedAI

WAN 2.7 可將圖片轉換為影片(720p/1080p),支援可選音訊及首尾幀控制。即用型 REST 推理 API,性能卓越

By WaveSpeedAI 2 min read
Alibaba Wan.2.7 Image To Video WAN 2.7 可將圖片轉換為影片(720p/1080p),支援可選音訊及首尾幀控制。即用型 REST 推理 API,性...
Try it

Wan 2.7 圖片轉影片:以首末幀控制將任何照片轉化為電影級影片

靜態圖片能訴說故事,但動態畫面才能真正打動人心。阿里巴巴最新的圖片轉影片生成模型 Wan 2.7 Image-to-Video 現已在 WaveSpeedAI 上線,可將單張參考照片轉化為 720p 或 1080p 的電影級片段——支援可選的音訊同步、負向提示詞控制,以及鎖定首末幀的獨特能力。對於需要精確視覺連貫性而非「隨機猜測」動畫效果的創作者、行銷人員和開發者而言,這次發布填補了 AI 影片生成 API 領域最重要的空白之一。

立即在 Wan 2.7 Image-to-Video 模型頁面體驗。

Wan 2.7 Image-to-Video 的運作原理

Wan 2.7 Image-to-Video 是一個以參考圖為基礎的影片擴散模型。您提供起始幀,用自然語言描述動態與氛圍,模型便會生成流暢的動畫片段,忠實呈現源圖片的外觀、光線與構圖。與從零開始憑空生成主體的純文字轉影片模型不同,Wan 2.7 將輸出錨定在您照片的視覺特徵上——這意味著相同的人物、產品或場景從第一幀延續到最後一幀。

Wan 2.7 在圖片轉影片模型中的突出優勢:

  • 雙幀引導:同時提供 image(起始幀)和 last_image(結束幀),模型在兩者之間插值出連貫的動態路徑,實現有腳本的轉場而非猜測。
  • 原生音訊條件化:傳入 audio 音軌,生成的影片將同步節奏、律動與情緒——適合音樂驅動內容和對嘴場景。
  • 解析度靈活切換:從同一個 REST 端點選擇 720p 快速標準輸出或 1080p 高品質交付。
  • 時長控制:只需一個 duration 參數即可生成 5 秒、10 秒或 15 秒的片段,無需分段處理。

開發者關注的技術規格:必填輸入為 imageprompt;選填輸入包括 last_imageaudionegative_promptresolutiondurationenable_prompt_expansion,以及用於可重現結果的 seed

Wan 2.7 Image-to-Video 核心功能

  • 圖片引導生成確保視覺一致性 — 主體身份、服裝、光線與背景構圖均從參考照片中保留,品牌資產與角色始終保持一致。
  • 首末幀控制確保敘事精準 — 精確定義鏡頭的起點與終點。這是競爭對手圖片轉影片 API 中最常缺失的功能,也是 Wan 2.7 非常適合分鏡腳本工作的原因。
  • 音訊輸入實現音樂同步影片 — 上傳配樂或旁白,模型便會調整動態節奏以匹配。無需再手動重新剪輯 AI 片段來配合節拍。
  • 負向提示詞支援獲得更乾淨的輸出 — 在 negative_prompt 欄位列出模糊臉孔、變形手部或不需要的背景動態等問題,即可有效去除偽影。
  • 提示詞擴展功能處理簡短提示 — 開啟 enable_prompt_expansion,模型在生成前自動豐富稀疏提示詞,適合提示詞工程難以規模化的批次處理流程。
  • 最高 1080p 輸出,按秒計費透明可預測 — 只為實際生成的內容付費,在 WaveSpeedAI 上無最低消費、無冷啟動。

Wan 2.7 Image-to-Video 最佳應用場景

單張參考照片的電影級動畫

攝影師和創作者可以拿一張靜態照片——人像、風景或產品圖——製作出 5 到 15 秒的動態影片,無需安排拍攝現場。Wan 2.7 的參考錨定意味著照片中的主體保持清晰可辨,婚禮人像變成動人的紀念影片,而非陌生人的臉孔。

以首末幀實現有腳本的場景轉場

分鏡師、廣告人和短片製作者可以提供起始幀和結束幀,讓 Wan 2.7 填充中間的動態。這將模型變成可控的視覺敘事「補間」引擎——適用於鏡頭移動、角色變身,或需要結束幀精確落點的前後對比產品展示。

大規模社群媒體內容製作

Reels、TikTok 和 Shorts 都青睞動態內容。擁有大量靜態產品圖片庫的品牌可以將這些資源轉化為吸引眼球的直式影片。結合 enable_prompt_expansion 與批次 API 呼叫,小型社群媒體團隊每週無需影片編輯即可發布數十個動態變體。

音樂影片與視聽敘事

選填的 audio 參數使 Wan 2.7 非常適合獨立音樂人、Podcast 片段設計師和歌詞影片創作者。搭配主角圖片和提示詞輸入一段 10 秒音訊,生成的動態便會跟隨節奏——將製作週期從數小時縮短至數分鐘。

行銷、電商與活動動畫

促銷郵件、付費社群廣告和登陸頁主視覺影片,配上動態效果轉化率都會更高。Wan 2.7 讓行銷人員無需重新拍攝或購買素材影片,就能為現有行銷素材——產品包裝圖、模特兒照片、生活風格場景——添加動態。搭配 CTA 卡片的結束幀圖片,打造乾淨、符合品牌調性的結尾。

房地產與建築虛擬導覽

房源照片可動畫化為偽實境漫遊片段:細緻的移動鏡頭、光線變化、氛圍流動。使用 last_image 可引導鏡頭停留在壁爐或景觀等重點特色上。

時尚與美妝電子型錄

為編輯拍攝的靜態圖加入髮絲飄動、布料質感與環境動態。負向提示詞控制在此尤其有價值,可排除低端圖片轉影片模型常見的「臉部變形」偽影。

Wan 2.7 Image-to-Video 定價與 API 存取

WaveSpeedAI 上的 Wan 2.7 Image-to-Video 按輸出時長與解析度計費:

時長720p1080p
5 秒$0.50$0.75
10 秒$1.00$1.50
15 秒$1.50$2.25

計費規則按秒統一計算:720p 每秒 $0.101080p 每秒 $0.15(高解析度溢價 1.5 倍)。無訂閱層級或最低消費要求。

透過 WaveSpeed Python SDK 呼叫模型非常簡便:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/image-to-video",
    {
        "image": "https://example.com/start-frame.jpg",
        "prompt": "Slow cinematic dolly-in, golden-hour light, gentle wind in the trees",
        "last_image": "https://example.com/end-frame.jpg",
        "resolution": "1080p",
        "duration": 5,
    },
)

print(output["outputs"][0])

同樣的呼叫方式適用於任何語言的 REST 推理 API。WaveSpeedAI 運行 Wan 2.7 無冷啟動,意味著您的第一個請求和第一千個請求都命中同樣的熱容量——對於流量突發的生產工作負載至關重要。

如果您需要不使用參考圖片的純文字生成,請參閱 WaveSpeedAI 上的配套模型 Wan 2.7 Text-to-Video

Wan 2.7 Image-to-Video 最佳使用技巧

  • 從高解析度、光線充足的參考圖開始,主體清晰可見。低光或雜訊大的輸入會導致更混濁的動態效果。
  • 敘事重要時務必提供 last_image 即使是粗略構思的結束幀,也能大幅改善動態方向和最終幀構圖。
  • 對人物主體積極使用 negative_prompt 「blurry face, extra fingers, warping, text artifacts」等詞語通常能顯著提升感知品質。
  • 稀疏提示詞時啟用提示詞擴展。 若提示詞少於約 15 個詞,開啟 enable_prompt_expansion 勝過手動撰寫更長的提示詞。
  • 找到理想構圖後鎖定 seed,在調整解析度或時長時保留既有風格。
  • 音訊長度與時長相匹配。 10 秒片段應搭配 10 秒音訊檔案以獲得最緊密的同步效果。

Wan 2.7 Image-to-Video 常見問題

Wan 2.7 Image-to-Video 是什麼? Wan 2.7 Image-to-Video 是阿里巴巴以參考圖為基礎的影片生成模型,可將靜態圖片轉化為 720p 或 1080p 的電影級片段,支援選填的音訊、負向提示詞和首末幀控制。

Wan 2.7 Image-to-Video 的費用是多少? 定價為 720p 每秒 $0.10,1080p 每秒 $0.15——例如,在 WaveSpeedAI 上,5 秒 720p 片段為 $0.50,15 秒 1080p 片段為 $2.25。

我可以透過 API 使用 Wan 2.7 Image-to-Video 嗎? 可以。Wan 2.7 可透過 WaveSpeedAI REST 推理 API 和官方 Python SDK 使用,無冷啟動,按使用量計費。

Wan 2.7 是否支援音訊同步影片生成? 是的——傳入 audio URL 或檔案,生成的影片將調整動態節奏以匹配配樂的律動和情緒。

首末幀控制如何運作?image 參數中提供起始幀,在選填的 last_image 參數中提供結束幀,模型便會在兩者之間插值出連貫的動態路徑——非常適合分鏡腳本轉場和有腳本的鏡頭。

立即開始使用 Wan 2.7 Image-to-Video

透過首末幀控制、音訊同步和 1080p 輸出,將單張照片動畫化為電影級片段——無需管理 GPU,無需擔心冷啟動。立即試用 WaveSpeedAI 上的 Wan 2.7 Image-to-Video,以 API 速度交付動態內容。