← 部落格

Gemini Omni 演示影片剛剛洩露——Google 全新影片模型究竟能做什麼

距原始 UI 字串洩露八天後,首批 Gemini Omni 示範影片浮出水面。對話式編輯表現強勁,原始畫質遜於 Seedance 2.0,且每段影片消耗約 43% 的 AI Pro 每日配額。這是 I/O 2026 前一週的真實評測。

1 min read

當我們於5月3日報導最初的Omni洩露事件時,整個故事僅來自一個UI字串。八天後,拼圖已大幅補全。Gemini行動應用程式浮現了該模型生成的實際範例影片,內部模型ID洩露(bard_eac_video_generation_omni),且足夠多的第一手印象已公開,足以做出初步判斷。

簡而言之:Omni是真實存在的,幾乎可以確定是一個全新模型而非Veo 3.1的改名,在對AI影片產品開發者而言至關重要的維度上——保真度、編輯能力、成本——它與排行榜領先者相比有截然不同的優缺點。距離2026年Google I/O(5月19日至20日)還有七天,以下是目前已知的內容。

本週浮現的資訊

2026年5月11日,TestingCatalog與X用戶@Thomas16937378從Gemini行動應用程式的影片生成流程中擷取了最新範例。模型說明文字從佔位符(「由Omni提供支援」)更新為完整的產品描述:

與Gemini Omni一起創作:認識我們的全新影片模型。重新混合您的影片、直接在對話中編輯、嘗試範本,以及更多功能。

隨之而來的還有三項具體細節:

  • 內部模型IDbard_eac_video_generation_omni。「Bard EAC」是Gemini應用程式用於實驗性功能的內部命名空間;_omni後綴確認這被視為獨立模型,而非Veo的變體。
  • 生成片段當前預覽階段上限為10秒。Veo 3.1原生上限為8秒,透過延伸功能可達16秒;Omni目前介於兩者之間,且尚未見到延伸功能的入口。
  • Gemini設定中新增的使用限制分頁,表明採用點數計量式推出方式,而非按月訂閱配額——與Google推出高成本代理功能(Deep Research、Notebook Plus)的方式一致。

這是證據品質的實質升級。5月3日的洩露僅有UI文字。而這次是UI文字+可用端點+可觀察輸出+計費介面。

大家已見到的兩支範例影片

兩支範例均來自Gemini應用程式,均來自擁有AI Pro存取權限、能在疑似回滾前調用該模型的用戶。值得詳細描述,因為它們能告訴你Omni屬於哪個模型系譜。

範例一——「一位教授在傳統黑板上書寫三角函數恆等式數學證明。」 評測者稱文字渲染處理得「相當出色」——粉筆方程式清晰可辨,看起來在數學上合理,而非早期影片模型產生的那種符號亂碼。手部和手臂動作自然流暢。chromeunboxed的評測文章仍指出「最終輸出中存在明顯的AI痕跡」,但未具體說明——可能是不自然的微眼動、手部網格偽影以及粉筆幾何形狀略微漂移等因素的組合。

範例二——「兩名男子在高檔餐廳吃義大利麵。」 被描述為「相當逼真」。捲義大利麵的測試一年來一直是非正式基準,因為它對潛空間影片中所有容易出錯的方面都造成壓力:餐具與食物的接觸、類流體動作,以及遮擋時的一致面部身份識別。Omni的表現足以引發評論,但同樣帶有「可接受」門檻已在今年提高的附帶說明——Seedance 2.0和Wan 2.7都能可靠地達到這個標準。

兩支範例不構成基準測試。但在兩個不同難度領域(幀內文字和接觸物理)的兩支範例,評測者均指出結果強勁但並非完美,足以將Omni定位於與Veo 3.1相同的層級——在原始保真度上不超越它,且明顯低於Seedance 2.0。

Omni真正領先之處:對話驅動的編輯

本週第一手評測中最有趣的發現是,Omni的突出能力並非生成品質,而是編輯功能。具體而言:

  • 透過自然語言對話指令移除輸入片段中的浮水印
  • 場景中的物件替換(「將紅色汽車換成藍色」)
  • 透過對話輪次進行場景重寫——描述應更改的內容,模型返回編輯版本,反覆迭代

這與Seedance 2.0 Video-Edit或Wan 2.7 Edit目前提供的功能有著截然不同的應用範疇。這些模型擅長命令式指令編輯(「移除耳機」、「將女性的外套改為紅色」),但無法針對單一來源片段維持多輪編輯對話。目前最接近的類比是Kling Omni Video O1的自然語言編輯流程,我們在其上線時有詳細報導

如果Omni確實以對話優先的影片編輯器形式上線——而不僅僅是另一個文字生成影片端點——那就是其獨特價值主張所在。Google擁有LLM技術棧,能夠以大多數純影片模型廠商做不到的方式原生實現多輪修正。

成本面貌

最引人注目的數據點:一位測試者報告稱兩個影片提示詞消耗了其每日AI Pro配額的86%。這相當於每支片段佔用Pro日配額的約43%——成本狀況與前沿影片模型一致,而非Flash層級的圖像生成。

幾點含義:

  1. 在Gemini應用程式中運行的預覽模型幾乎可以確定是Pro/完整層級,而非Flash。TestingCatalog推測Flash變體將會同時上線,但我們看到的範例並非來自它。
  2. 以此速率的每片段點數消耗,對應零售等價價格約為每支10秒片段0.30至0.50美元,與Veo 3.1相比具競爭力(預覽定價0.50美元/秒),但高於Seedance 2.0 Fast。
  3. Google幾乎肯定會在I/O發布時推出明確的使用層級——新的使用限制分頁已是預兆。預計針對一般用戶的Flash成本層級,以及面向開發者在AI Studio按量計費的付費層級。

我們目前對Omni的認知

三週前有三種合理解讀:Veo改名、獨立的Gemini影片模型,或完整的全模態模型。5月11日的證據縮小了範圍:

  • 獨立的模型ID_omni後綴,而非_veo)排除了直接改名Veo的可能性。Google通常不會在預覽推出期間重命名現有模型端點。
  • 編輯優先的產品定位——「混合、直接在對話中編輯」——不是Google用於Veo的語言,後者一直以文字生成影片+延伸功能為賣點。這更像是具有不同訓練目標的獨立模型。
  • 任何洩露範例中均無圖像輸出的證據。如果這是名稱所暗示的統一全模態模型,你應該能看到同一端點的圖像生成功能。迄今為止,所有洩露均為純影片。

目前最可能的解讀:Omni是一個新的Gemini訓練影片模型,與Veo並列而非取代它,採用編輯優先的產品定位。 Nano Banana表明Google願意在同一模態內進行品牌區分(文字生成圖像在Nano Banana和Gemini 3 Flash Image兩個名稱下運行)。Omni與Veo共存與這種模式相呼應。

名稱所暗示的完全統一全模態夢想很可能仍是未來世代的目標。下週即將推出的——如果真的下週推出的話——是一款具備Google LLM原生對話介面的競爭力影片編輯器。

這對評測意味著什麼

如果你正在開發任何涉及AI影片的產品,未來兩週內有三件事會發生變化:

  1. 在評估套件中加入編輯基準測試。 大多數影片模型評估僅限於文字生成影片。如果Omni的賣點是對話驅動的編輯,你的比較就不能只看生成保真度——你需要一組「編輯這段影片」的提示詞,測試多輪連貫性、編輯過程中的物件身份保留,以及在第二輪和第三輪中的指令遵從度。
  2. 將Seedance 2.0、Wan 2.7、Omni三角關係視為工作集合。 Sora 2和Veo 3.1現在最好理解為對照這個三角關係的上一代參照。三者各有獨特優勢:Seedance在保真度上領先,Wan在多模態參考輸入上領先,Omni(暫定)在對話編輯上領先。
  3. 為Pro層級定價做好預算。 每日配額43%這一數據點是本週最響亮的信號。如果你的工作流程涉及大規模生成片段,Flash層級的發布將比Pro層級更重要。請特別追蹤該公告。

未來一週

Google I/O將於2026年5月19日開幕。週二的主題演講環節是Gemini和DeepMind公告傳統登場的時間。如此受控、如此完整的發布前洩露——模型說明文字、範例影片、計費介面,一週內全部浮現——與已通過內部審查、只等日曆時機的發布一致。

當天需關注的四件事:

  1. 是否有Flash層級,費用是多少?
  2. 編輯賣點是否成真,還是只是單一樣本的噪音?具體而言,Google是否會在台上現場展示多輪編輯?
  3. API路徑是什麼? AI Studio?Vertex?兩者皆有?
  4. 音訊同步:所有洩露的範例均未涉及Omni是否像Veo 3.1那樣生成同步音訊。如果不能,這是一個真實的差距。

在WaveSpeedAI上試用目前的替代方案

在Omni正式上線之前,2026年影片生成領域的其餘選手均已在WaveSpeedAI上透過統一API上線:

Gemini Omni公開上線後,預計在數日內即可在同一API下進行比較。