Vidu Q3 Start End To Video 現已登陸WaveSpeedAI

在WaveSpeedAI上推出Vidu Q3首尾幀生成影片功能

來自生數科技最先進的首尾幀影片模型正式登場。我們很高興宣布Vidu Q3首尾幀生成影片現已在WaveSpeedAI上線——將全球頂尖排名的Vidu Q3世代能力帶入精準的雙關鍵幀影片創作中。

Vidu Q3於2026年1月30日發布時引發廣泛關注，在Artificial Analysis基準測試中排名中國第一、全球第二。如今，透過首尾幀生成影片變體，創作者可以駕馭同等行業領先的品質，同時完整掌控生成影片的開場與結尾幀。只需提供起始圖片、結尾圖片以及文字提示詞，即可觀看模型以最高1080p解析度在兩個狀態之間生成流暢、電影感的過渡畫面。

什麼是Vidu Q3首尾幀生成影片？

Vidu Q3首尾幀生成影片是一個雙關鍵幀插值模型，透過智慧橋接兩個參考幀來生成高品質影片。與從單張圖片進行不可預測外推的標準圖生影片模型不同，此模型同時錨定影片的開頭與結尾，再合成兩者之間的自然運動路徑。

底層的Vidu Q3架構代表著相較Q2的世代性飛躍。建立於生數科技先進視覺轉換器基礎架構之上，Q3帶來了更佳的視覺保真度、更好的運動連貫性以及卓越的物理邏輯——獨立測試給予其7.5/10的物理評分，物體互動真實、角色動作自然且具有重量感。與早期版本相比，幀級失真顯著減少，運動連續性明顯更為流暢。

首尾幀變體之所以特別強大，在於其可預測性。傳統AI影片生成能產出精美但難以掌控的結果。透過約束兩端點，創作者可以精準引導影片的敘事走向，同時仍能受益於Q3的電影運動引擎與自然插值能力。

主要功能

Q3世代視覺品質 Vidu Q3比任何先前的Vidu模型都能產出更清晰、更少瑕疵的影像。架構與數據增強方面的改進減少了閃爍並改善運動連續性，呈現出有意為之而非算法生成感的輸出結果。

雙幀精準控制 同時定義起始與結尾視覺畫面。模型在整個片段中保留身份識別、光線、構圖與空間關係，確保主體從第一幀到最後一幀保持一致。

流暢且具物理感知的插值 AI驅動的運動引擎在兩個參考幀之間生成自然、流暢的動作。物體遵循真實物理規律，角色動作具有重量感與意圖感，鏡頭過渡感覺如電影精心設計。

多種解析度選項 可選擇540p、720p或1080p輸出，以平衡品質與成本。無論是以較低解析度快速驗證創意，還是以全高清規格製作最終交付成果，模型都能適應您的工作流程。

運動幅度控制 精細調整過渡中的運動強度。使用細微動作實現柔和變換，或調高強度打造戲劇性的形變與動作場景。

原生音頻生成 繼承自Q3架構的突出能力：可選的同步音效與背景音樂生成，且無需額外費用。您的影片可以附帶完整音效設計直接交付，無需另行進行音頻製作。

內建提示詞增強器 整合式提示詞增強工具可自動改善您的場景描述，幫助您在無需掌握複雜提示技巧的情況下獲得更好的結果。

實際應用場景

電影場景過渡

為電影、廣告和音樂影片創建兩個視覺狀態之間的流暢過渡。輸入您的開場鏡頭與結尾鏡頭，描述鏡頭運動與動作，即可生成原本需要昂貴視覺特效才能完成的專業橋接畫面。

產品形變與展示

以精緻的影片過渡展示產品變換、色彩變化或功能更新。美妝品牌可以在色號之間進行形變展示；汽車製造商可以在不同配置級別之間過渡——全程動作流暢、掌控自如。

前後對比內容

健身蛻變、家居翻新、季節景觀變化——任何透過對比來說故事的場景，都能從兩個狀態之間流暢、專業的影片過渡中受益。雙幀控制確保您的「之前」與「之後」時刻都能精準呈現。

角色動畫與姿態過渡

為角色從一個姿態或表情過渡到另一個製作動畫。遊戲開發者、動畫師和內容創作者可以快速原型化角色動作，無需手動設置關鍵幀，只需透過文字提示引導過渡的風格與節奏。

縮時攝影與時間效果

以受控的起點和終點創建人工縮時影片。以自然的時間插值模擬日出到日落、季節更替或建築施工進度。

分鏡預覽視覺化

將靜態分鏡幀轉換為動態序列。以您的關鍵場景作為首尾圖片輸入，模型即可生成其間的運動效果——非常適合提案概念、測試剪輯節奏，或在正式投入製作前預覽鏡頭運動。

在WaveSpeedAI上快速開始

在WaveSpeedAI上使用Vidu Q3首尾幀生成影片只需幾個步驟：

上傳起始圖片 — 影片的第一幀
上傳結尾圖片 — 影片的最後一幀
撰寫提示詞 — 描述幀與幀之間的運動、動作與過渡
設定時長 — 選擇影片長度（預設：5秒）
選擇解析度 — 540p求速度、720p求平衡，或1080p求最高品質
調整運動幅度（可選） — 透過幅度設定控制運動強度
啟用音頻（可選） — 切換同步音效與背景音樂
生成 — 提交並下載完成的影片

WaveSpeedAI的基礎架構提供快速推理且無冷啟動延遲，讓您的影片無論在任何需求量下都能快速生成。REST API可直接整合至現有的生產流程與創意工作流程中。

透明定價

費用依解析度與時長可預測地擴展：

解析度	每秒費用	5秒影片	10秒影片
540p	$0.07	$0.35	$0.70
720p	$0.15	$0.75	$1.50
1080p	$0.16	$0.80	$1.60

音頻生成免費包含在內。無訂閱費、無隱藏費用——只需為您所生成的內容付費。

API整合

import wavespeed

output = wavespeed.run(
    "vidu/q3/start-end-to-video",
    {
        "prompt": "A smooth camera push-in as the flower blooms open",
        "image": "https://example.com/start-frame.jpg",
        "last_image": "https://example.com/end-frame.jpg",
        "duration": 5,
    },
)

print(output["outputs"][0])