Gemini Omni 演示影片剛剛洩露——Google 全新影片模型究竟能做什麼

當我們於5月3日報導最初的Omni洩露事件時，整個故事僅來自一個UI字串。八天後，拼圖已大幅補全。Gemini行動應用程式浮現了該模型生成的實際範例影片，內部模型ID洩露（bard_eac_video_generation_omni），且足夠多的第一手印象已公開，足以做出初步判斷。

簡而言之：Omni是真實存在的，幾乎可以確定是一個全新模型而非Veo 3.1的改名，在對AI影片產品開發者而言至關重要的維度上——保真度、編輯能力、成本——它與排行榜領先者相比有截然不同的優缺點。距離2026年Google I/O（5月19日至20日）還有七天，以下是目前已知的內容。

本週浮現的資訊

2026年5月11日，TestingCatalog與X用戶@Thomas16937378從Gemini行動應用程式的影片生成流程中擷取了最新範例。模型說明文字從佔位符（「由Omni提供支援」）更新為完整的產品描述：

與Gemini Omni一起創作：認識我們的全新影片模型。重新混合您的影片、直接在對話中編輯、嘗試範本，以及更多功能。

隨之而來的還有三項具體細節：

內部模型ID：bard_eac_video_generation_omni。「Bard EAC」是Gemini應用程式用於實驗性功能的內部命名空間；_omni後綴確認這被視為獨立模型，而非Veo的變體。
生成片段當前預覽階段上限為10秒。Veo 3.1原生上限為8秒，透過延伸功能可達16秒；Omni目前介於兩者之間，且尚未見到延伸功能的入口。
Gemini設定中新增的使用限制分頁，表明採用點數計量式推出方式，而非按月訂閱配額——與Google推出高成本代理功能（Deep Research、Notebook Plus）的方式一致。

這是證據品質的實質升級。5月3日的洩露僅有UI文字。而這次是UI文字＋可用端點＋可觀察輸出＋計費介面。

大家已見到的兩支範例影片

兩支範例均來自Gemini應用程式，均來自擁有AI Pro存取權限、能在疑似回滾前調用該模型的用戶。值得詳細描述，因為它們能告訴你Omni屬於哪個模型系譜。

範例一——「一位教授在傳統黑板上書寫三角函數恆等式數學證明。」 評測者稱文字渲染處理得「相當出色」——粉筆方程式清晰可辨，看起來在數學上合理，而非早期影片模型產生的那種符號亂碼。手部和手臂動作自然流暢。chromeunboxed的評測文章仍指出「最終輸出中存在明顯的AI痕跡」，但未具體說明——可能是不自然的微眼動、手部網格偽影以及粉筆幾何形狀略微漂移等因素的組合。

範例二——「兩名男子在高檔餐廳吃義大利麵。」 被描述為「相當逼真」。捲義大利麵的測試一年來一直是非正式基準，因為它對潛空間影片中所有容易出錯的方面都造成壓力：餐具與食物的接觸、類流體動作，以及遮擋時的一致面部身份識別。Omni的表現足以引發評論，但同樣帶有「可接受」門檻已在今年提高的附帶說明——Seedance 2.0和Wan 2.7都能可靠地達到這個標準。

兩支範例不構成基準測試。但在兩個不同難度領域（幀內文字和接觸物理）的兩支範例，評測者均指出結果強勁但並非完美，足以將Omni定位於與Veo 3.1相同的層級——在原始保真度上不超越它，且明顯低於Seedance 2.0。

Omni真正領先之處：對話驅動的編輯

本週第一手評測中最有趣的發現是，Omni的突出能力並非生成品質，而是編輯功能。具體而言：

透過自然語言對話指令移除輸入片段中的浮水印
場景中的物件替換（「將紅色汽車換成藍色」）
透過對話輪次進行場景重寫——描述應更改的內容，模型返回編輯版本，反覆迭代

這與Seedance 2.0 Video-Edit或Wan 2.7 Edit目前提供的功能有著截然不同的應用範疇。這些模型擅長命令式指令編輯（「移除耳機」、「將女性的外套改為紅色」），但無法針對單一來源片段維持多輪編輯對話。目前最接近的類比是Kling Omni Video O1的自然語言編輯流程，我們在其上線時有詳細報導。

如果Omni確實以對話優先的影片編輯器形式上線——而不僅僅是另一個文字生成影片端點——那就是其獨特價值主張所在。Google擁有LLM技術棧，能夠以大多數純影片模型廠商做不到的方式原生實現多輪修正。

成本面貌

最引人注目的數據點：一位測試者報告稱兩個影片提示詞消耗了其每日AI Pro配額的86%。這相當於每支片段佔用Pro日配額的約43%——成本狀況與前沿影片模型一致，而非Flash層級的圖像生成。

幾點含義：

在Gemini應用程式中運行的預覽模型幾乎可以確定是Pro/完整層級，而非Flash。TestingCatalog推測Flash變體將會同時上線，但我們看到的範例並非來自它。
以此速率的每片段點數消耗，對應零售等價價格約為每支10秒片段0.30至0.50美元，與Veo 3.1相比具競爭力（預覽定價0.50美元/秒），但高於Seedance 2.0 Fast。
Google幾乎肯定會在I/O發布時推出明確的使用層級——新的使用限制分頁已是預兆。預計針對一般用戶的Flash成本層級，以及面向開發者在AI Studio按量計費的付費層級。

我們目前對Omni的認知

三週前有三種合理解讀：Veo改名、獨立的Gemini影片模型，或完整的全模態模型。5月11日的證據縮小了範圍：

獨立的模型ID（_omni後綴，而非_veo）排除了直接改名Veo的可能性。Google通常不會在預覽推出期間重命名現有模型端點。
編輯優先的產品定位——「混合、直接在對話中編輯」——不是Google用於Veo的語言，後者一直以文字生成影片＋延伸功能為賣點。這更像是具有不同訓練目標的獨立模型。
任何洩露範例中均無圖像輸出的證據。如果這是名稱所暗示的統一全模態模型，你應該能看到同一端點的圖像生成功能。迄今為止，所有洩露均為純影片。

目前最可能的解讀：Omni是一個新的Gemini訓練影片模型，與Veo並列而非取代它，採用編輯優先的產品定位。 Nano Banana表明Google願意在同一模態內進行品牌區分（文字生成圖像在Nano Banana和Gemini 3 Flash Image兩個名稱下運行）。Omni與Veo共存與這種模式相呼應。

名稱所暗示的完全統一全模態夢想很可能仍是未來世代的目標。下週即將推出的——如果真的下週推出的話——是一款具備Google LLM原生對話介面的競爭力影片編輯器。

這對評測意味著什麼

如果你正在開發任何涉及AI影片的產品，未來兩週內有三件事會發生變化：

在評估套件中加入編輯基準測試。 大多數影片模型評估僅限於文字生成影片。如果Omni的賣點是對話驅動的編輯，你的比較就不能只看生成保真度——你需要一組「編輯這段影片」的提示詞，測試多輪連貫性、編輯過程中的物件身份保留，以及在第二輪和第三輪中的指令遵從度。
將Seedance 2.0、Wan 2.7、Omni三角關係視為工作集合。 Sora 2和Veo 3.1現在最好理解為對照這個三角關係的上一代參照。三者各有獨特優勢：Seedance在保真度上領先，Wan在多模態參考輸入上領先，Omni（暫定）在對話編輯上領先。
為Pro層級定價做好預算。 每日配額43%這一數據點是本週最響亮的信號。如果你的工作流程涉及大規模生成片段，Flash層級的發布將比Pro層級更重要。請特別追蹤該公告。

未來一週

Google I/O將於2026年5月19日開幕。週二的主題演講環節是Gemini和DeepMind公告傳統登場的時間。如此受控、如此完整的發布前洩露——模型說明文字、範例影片、計費介面，一週內全部浮現——與已通過內部審查、只等日曆時機的發布一致。

當天需關注的四件事：

是否有Flash層級，費用是多少？
編輯賣點是否成真，還是只是單一樣本的噪音？具體而言，Google是否會在台上現場展示多輪編輯？
API路徑是什麼？ AI Studio？Vertex？兩者皆有？
音訊同步：所有洩露的範例均未涉及Omni是否像Veo 3.1那樣生成同步音訊。如果不能，這是一個真實的差距。

在WaveSpeedAI上試用目前的替代方案

在Omni正式上線之前，2026年影片生成領域的其餘選手均已在WaveSpeedAI上透過統一API上線：

Seedance 2.0 — 目前原始保真度的SOTA，附有低延遲的Fast變體
Wan 2.7 — 阿里巴巴參考資源豐富的影片模型
Kling V3.0 Pro — 快手的高保真選項
Kling Omni Video O1 Edit — 自然語言影片編輯，目前最接近Omni所推廣功能的類比
Sora 2 — OpenAI的選項
Veo 3.1 — 目前的Google影片模型

Gemini Omni公開上線後，預計在數日內即可在同一API下進行比較。

本週浮現的資訊

大家已見到的兩支範例影片

Omni真正領先之處：對話驅動的編輯

成本面貌

我們目前對Omni的認知

這對評測意味著什麼

未來一週

在WaveSpeedAI上試用目前的替代方案

相關文章

GPT-5.6 出現在 OpenAI 的 Codex 日誌中——這究竟意味著什麼

Seedance 2.0 完整指南：多模態影片創作

Google神秘的「Omni」影片模型：Gemini UI洩露在I/O 2026前透露了什麼

PixVerse C1 圖像轉影片現已登陸WaveSpeedAI

PixVerse C1 文字轉影片現已登陸WaveSpeedAI

PixVerse C1 Transition 現已登陸WaveSpeedAI