Vidu 參考轉影片 Q1 现已登陆WaveSpeedAI

在 WaveSpeedAI 上推出 Vidu Reference-to-Video Q1

AI 視頻生成領域剛剛取得了重大進展。我們很高興宣布 Vidu Reference-to-Video Q1 現已在 WaveSpeedAI 上推出，為全球的創作者、行銷人員和開發者帶來業界領先的多實體一致性技術。

由盛數科技與清華大學合作開發——清華大學是自 2022 年以來擴散概率模型研究的先驅團隊之一——Vidu Q1 代表了在維持 AI 生成視頻內容視覺身份方面的突破。無論您是在製作角色動畫、展示產品還是創建品牌內容，這個模型都能確保您的主體在每一幀中看起來完全符合預期。

什麼是 Vidu Reference-to-Video Q1？

Vidu Reference-to-Video Q1 是一個多模態 AI 視頻生成模型，可以根據參考圖像創建高質量的 5 秒視頻。與傳統文本轉視頻工具在一致性方面的困難不同，該模型使用先進的語義理解來保持您定義的每個主體的視覺身份、色調和紋理。

該技術建立在盛數科技的 U-ViT 架構基礎之上，該架構甚至早於其他主要 AI 視頻平台使用的擴散變換器 (DiT) 方法。這個架構基礎使 Vidu Q1 不僅能理解您的參考圖像所顯示的內容，還能理解它們與文本提示的關係——自動生成和集成文本提示中描述的元素，即使它們在源圖像中不存在。

正如盛數科技首席執行官羅一航在宣布多參考更新時所說：“這次更新突破了創作者認為他們使用 AI 視頻能做到的極限。我們正在越來越接近讓用戶能夠創建完全實現的場景，包括詳細的角色、物體和背景的完整演員陣容。“

主要功能

多實體一致性

Vidu Q1 的頭號功能是它能夠在動態運動序列中保持完美的視覺一致性。上傳多個主體的參考圖像——角色、產品、環境——該模型會在整個生成的視頻中保持每一個的外觀、紋理和色調。當 Vidu 1.5 推出這項技術時，它被描述為”業界首創”，而 Q1 更進一步。

靈活的多圖像輸入

支持每次生成 1 到 7 個參考圖像，為您提供無與倫比的復雜場景控制。構建包含多個角色、道具或背景的視覺豐富的構圖，無需在拍攝時將它們放在同一個房間裡。每個圖像可以定義最終視頻的不同元素。

智能語義理解

增強的語義理解引擎是 Vidu Q1 與眾不同之處。通過理解參考圖像和文本提示之間的關係，該模型可以推斷缺失的視覺元素。例如，您可能上傳人物和城市景觀的圖像，然後提示：“這個人在日落時在城市中邊彈吉他邊行走。” 即使沒有吉他參考，Vidu Q1 也會生成和無縫集成樂器，同時保持視覺一致性。

電影級運動生成

每個輸出都具有平滑的攝像機運動、環境場景過渡和逼真的視差效果。該模型添加了專業級的運動，將靜態參考轉變為適合商業用途的動態、引人入勝的視頻內容。

可自定義的運動強度

使用可調節的運動幅度選項進行微調：自動、小、中或大。這種控制可以讓您將動畫風格與您的特定項目要求相匹配，無論您需要細微的產品旋轉還是戲劇性的角色運動。

現實應用場景

電商產品視頻

根據 HubSpot 的研究，88% 的消費者在觀看品牌視頻後會被說服購買產品。Vidu Reference-to-Video Q1 使電商品牌能夠大規模創建引人入勝的產品展示。從多個角度上傳產品圖像，描述您想要的場景，然後生成專業視頻內容，無需傳統製作成本。使用 AI 進行視頻創建的公司報告稱，完成項目的速度比傳統方法快高達 60%。

品牌行銷活動

在整個廣告活動中保持角色和品牌元素的一致性。使用相同的參考圖像生成多個具有不同場景的視頻，確保您的品牌吉祥物、代言人或產品在每個內容中的外觀相同——這種能力以前需要昂貴的視覺特效工作。

社交媒體內容創建

AI 生成視頻的速度和經濟性使其非常適合社交媒體行銷的持續內容需求。快速創建產品視頻、角色動畫或品牌內容的變體，同時保持建立品牌認知度的視覺一致性。

動畫和講故事

創作者可以開發在多個視頻生成中保持的角色和場景。這為序列化內容、動畫劇集概念或故事板到視頻的工作流程開啟了可能性，其中視覺連貫性至關重要。

時尚和服裝

在模型上製作衣服動畫、展示運動中的配件或創建突出紋理和運動的外觀書視頻。多參考功能意味著您可以將服裝圖像、模型參考和場景背景組合成有凝聚力的時尚內容。

在 WaveSpeedAI 上入門

通過 WaveSpeedAI 訪問 Vidu Reference-to-Video Q1 只需幾分鐘：

訪問模型頁面 wavespeed.ai/models/vidu/reference-to-video-q1
上傳您的參考圖像（1-7 個 PNG、JPEG 或 JPG 格式的圖像）
編寫您的提示，描述所需的運動、場景和風格（最多 1,500 個字符）
選擇您的寬高比（16:9、9:16 或 1:1）和運動幅度
生成您的 5 秒、720p 視頻

定價很直接：每次 5 秒視頻生成 $0.40。借助 WaveSpeedAI 的基礎設施，您可以獲得快速推理速度、無冷啟動和可靠的可用性——這意味著您可以快速迭代您的創意項目，無需等待基礎設施啟動。

獲得最佳效果的提示

使用清晰、高分辨率的參考圖像，具有一致的照明
在提示中標記您的圖像（例如，“圖像 1 中的人穿著圖像 2 中的夾克”）
在嘗試復雜的多實體構圖之前，先從更簡單的場景和更少的參考開始
嘗試調整運動幅度，為您的內容找到合適的能量

結論

Vidu Reference-to-Video Q1 代表了 AI 視頻生成中可能性的真實進步。多實體一致性、語義理解和靈活參考輸入的組合解決了長期以來 AI 視頻的阿喀琉斯之踵：在幀和場景中保持視覺身份。

對於希望擴展視頻製作而不犧牲質量或一致性的創作者和企業，該模型提供了一條實用的前進之路。無論您是生成產品視頻、品牌內容還是創意項目，能夠確切定義主體的外觀——並相信 AI 將保持這種定義——改變了可實現的事物。

準備好創建一致的、專業的 AI 視頻內容了嗎？立即在 WaveSpeedAI 上試用 Vidu Reference-to-Video Q1，體驗真正的多實體一致性帶來的區別。