← 部落格

Gemini Omni Flash 正式發布:10 秒多模態影片、SynthID 浮水印標記、音訊編輯功能暫緩推出

Google 在 I/O 2026 上發布了 Gemini Omni Flash——一個能跨文字、圖像、音訊與影片進行推理的單一模型,可生成帶同步音訊的一致影片輸出。本文詳述已發布的功能、尚未推出的部分,以及它與 Veo 的差異。

By WaveSpeedAI 2 min read

5月3日的UI字串洩露5月11日的示範洩露都已預示此事。截至2026年5月19日,Gemini Omni Flash正式上線——這是Google Omni框架中首個公開發布的模型,同日即在Gemini應用程式、Google Flow及YouTube Shorts全面開放。它能從單一多模態提示生成10秒含同步音訊的影片,並允許透過對話方式編輯這些片段。值得注意的是,它支援編輯已生成影片中的語音或音訊——這項功能被刻意保留。

以下內容涵蓋實際發布的功能、預發布洩露所遺漏的細節,以及Omni Flash在實際應用決策中相較於Veo、Sora 2和Seedance 2.0的定位。

已發布功能

詳情確認狀態
模型名稱Gemini Omni Flash
生成時長10秒,含同步音訊
輸入格式文字+圖片+音訊+影片(任意組合)
輸出內容單一連貫影片——跨輸入推理生成,而非拼接
編輯方式對話式聊天(「改變光線」、「把狗換成貓」)
浮水印每份輸出均嵌入SynthID
消費者端發布Gemini應用程式、YouTube Shorts、YouTube Create、Flow
付費訂閱者發布Gemini AI Plus($7.99/月)、Pro、Ultra
開發者API「數週內」上線
高階版本Omni Pro已規劃,尚無發布日期

10秒上限是最值得關注的產品決策。Google在台上給出的官方理由:「這不是模型限制,而是基於希望讓更多人使用、以及預期多數用戶目前不需要製作更長影片所做的決定。」 這比Veo 3.1的8秒上限更為保守——後者是架構層面的硬性天花板。Omni Flash的上限一旦政策放寬,理論上可以立即延長。

預發布報導的準確與失誤之處

準確之處:

  • Omni是全新模型,而非Veo的品牌重塑。架構與產品介面截然不同。
  • 以編輯為核心的產品定位。對話式場景重寫是示範的重點。
  • Flash+Pro的分層結構確實到來。
  • 音訊同步功能是真實的,並在首日發布。

失誤之處:

  • 5月11日洩露中「在原始畫質上落後Seedance 2.0」的說法,並未獲得Google台上任何演示的支持。已發布的示範(蛋白質折疊的黏土動畫說明;具備物理精確音效的彈珠)是經過特意挑選的,旨在強調接觸物理、材質表現、旁白配音和多步驟敘事——這些正是Seedance存在明顯弱點的類別。在沒有獨立基準測試的情況下,我們無法斷言Omni領先,但「落後」的說法確屬倉促。
  • 5月11日洩露中關於「每日配額消耗43%」的費用數據。首日定價現已改為訂閱制(起步價$7.99/月),同時透過YouTube Shorts和YouTube Create提供免費存取。按片計費的成本故事已被發行量故事所取代。

Omni Flash與Veo的四大差異

這是實際應用決策中最關鍵的問題,目前已有明確答案。

1. 輸入格式

Veo 3.1:文字→影片、圖片→影片,僅此而已。

Omni Flash:文字+圖片+音訊+影片,全部在一個提示中,模型跨輸入進行推理,而非串接處理。你可以提供角色參考圖片、希望角色說的台詞音訊檔,以及希望呈現的光線影片,並獲得一個解決所有三種約束的輸出結果。

2. 編輯方式

Veo 3.1:文字提示重新生成。每次編輯都是使用修改後提示的全新生成。

Omni Flash:基於對話的增量編輯。「讓光線更暖一些。」——下一個回應會在保留其他所有內容的同時編輯現有片段。這是LLM原生架構發揮優勢的功能介面。

3. 音訊

Veo 3.1:與影片同步的音訊。

Omni Flash:同步音訊,加上將輸入音訊用作生成約束的能力。但——這點至關重要——已生成影片的音訊與語音編輯功能被保留。Google以安全理由以「無配音編輯」模式發布模型,顯然是考量到選舉年的深偽風險。預計一旦政策與偵測機制成熟,此限制將會解除。

4. 發行管道

Veo 3.1:Vertex API、AI Studio及高定價的Veo應用程式。

Omni Flash:本週起透過YouTube Shorts和YouTube Create免費存取。付費存取從Google AI Plus的$7.99/月起。這是完全不同的市場策略——Google利用YouTube的發行管道,以零邊際成本將Omni推送給數億用戶。

SynthID加上音訊功能保留的組合所傳遞的訊息

Google將Omni Flash定位為消費者產品優先,開發者產品其次。以下兩項政策選擇清楚表明了這一點:

  1. SynthID為強制性功能。 每份輸出都含有可透過Gemini應用程式、Chrome和Search驗證的不可感知浮水印。API中沒有關閉此功能的開關。對於需要乾淨輸出的商業用途,在開發者API發布之前,你處於錯誤的層次。
  2. 音訊/語音編輯功能被保留。 這是該架構支援的最高風險功能——修改現有影片中語音的能力。保留此功能表明Google對監管與聲譽風險所在位置的判斷。不要基於尚未發布的功能規劃生產工作流程。

「Omni Pro」的公告進一步印證了這一點。Google明確表示Pro將在「我們看到相較Flash有跨越式進步時」推出——而非「我們即將宣布發布日期」。這種措辭與一個尚未完成訓練的模型一致,而非一個正在接受政策審查的模型。

今日構建者的應對策略

三個具體判斷:

  1. 對於面向消費者的創意工具,Omni Flash是Google發行管道內的新預設選項。 如果你的產品是面向終端用戶的影片創作應用程式,你需要針對它進行專項測試。
  2. 對於開發者管道,請稍候。 API「數週內」上線——意味著可能是2週或8週。在沒有API存取且Omni Pro發布時間表不明確的情況下,生產級影片模型領域實際上尚未發生變化。Veo 3.1Seedance 2.0Sora 2仍是生產選項。
  3. 對於評估,現在就準備好你的提示詞。 選定三個測試類別:接觸物理(彈珠示範)、旁白配音(黏土動畫示範),以及不降質的對話式編輯(多輪編輯對話的第三輪)。在當前生產模型上執行這些測試,以便在Omni Flash出現在你的API金鑰下之前建立好基準。

後續觀察重點

未來兩到四週的四個訊號:

  1. 開發者API發布。 定價、速率限制,以及Vertex AI介面是否與AI Studio一致。關鍵問題:API呼叫是否嵌入SynthID,商業帳戶是否可切換?
  2. 更長的影片時長。 10秒上限是政策決定。第一次有人在外部生成30秒片段時,這個解禁訊號代表Google對安全管道的信心程度。
  3. 音訊編輯功能回歸。 當此功能發布時,意味著深偽風險模型已通過內部審查。這才是比模型本身更有趣的功能故事。
  4. Omni Pro的實際基準測試表現。 「相較Flash有跨越式進步」的措辭與Anthropic在Opus發布前的表述如出一轍——意味著我們應期待顯著的能力躍升,而非漸進式發布。關注系統說明書。

當開發者API上線且Omni Flash與其他影片生成前沿模型並列可存取時,預計它將與Veo 3.1、Seedance、Sora 2及Kling Omni Video O1在同一標準下接受比較。WaveSpeedAI上的Google模型陣容——Veo 3.1、Veo 3 Fast、Gemini 3 Pro Image等——今日即可透過同一API存取。

資料來源:TechCrunch關於Gemini Omni的報導The Tech Portal I/O總覽Technobezz關於Omni Flash的報導TechTimes關於音訊功能保留的報導9to5Google I/O 2026新聞