Gemini Omni Flash 正式發布：10 秒多模態影片、SynthID 浮水印標記、音訊編輯功能暫緩推出

5月3日的UI字串洩露與5月11日的示範洩露都已預示此事。截至2026年5月19日，Gemini Omni Flash正式上線——這是Google Omni框架中首個公開發布的模型，同日即在Gemini應用程式、Google Flow及YouTube Shorts全面開放。它能從單一多模態提示生成10秒含同步音訊的影片，並允許透過對話方式編輯這些片段。值得注意的是，它不支援編輯已生成影片中的語音或音訊——這項功能被刻意保留。

以下內容涵蓋實際發布的功能、預發布洩露所遺漏的細節，以及Omni Flash在實際應用決策中相較於Veo、Sora 2和Seedance 2.0的定位。

已發布功能

詳情	確認狀態
模型名稱	Gemini Omni Flash
生成時長	10秒，含同步音訊
輸入格式	文字＋圖片＋音訊＋影片（任意組合）
輸出內容	單一連貫影片——跨輸入推理生成，而非拼接
編輯方式	對話式聊天（「改變光線」、「把狗換成貓」）
浮水印	每份輸出均嵌入SynthID
消費者端發布	Gemini應用程式、YouTube Shorts、YouTube Create、Flow
付費訂閱者發布	Gemini AI Plus（$7.99/月）、Pro、Ultra
開發者API	「數週內」上線
高階版本	Omni Pro已規劃，尚無發布日期

10秒上限是最值得關注的產品決策。Google在台上給出的官方理由：「這不是模型限制，而是基於希望讓更多人使用、以及預期多數用戶目前不需要製作更長影片所做的決定。」 這比Veo 3.1的8秒上限更為保守——後者是架構層面的硬性天花板。Omni Flash的上限一旦政策放寬，理論上可以立即延長。

預發布報導的準確與失誤之處

準確之處：

Omni是全新模型，而非Veo的品牌重塑。架構與產品介面截然不同。
以編輯為核心的產品定位。對話式場景重寫是示範的重點。
Flash＋Pro的分層結構確實到來。
音訊同步功能是真實的，並在首日發布。

失誤之處：

5月11日洩露中「在原始畫質上落後Seedance 2.0」的說法，並未獲得Google台上任何演示的支持。已發布的示範（蛋白質折疊的黏土動畫說明；具備物理精確音效的彈珠）是經過特意挑選的，旨在強調接觸物理、材質表現、旁白配音和多步驟敘事——這些正是Seedance存在明顯弱點的類別。在沒有獨立基準測試的情況下，我們無法斷言Omni領先，但「落後」的說法確屬倉促。
5月11日洩露中關於「每日配額消耗43%」的費用數據。首日定價現已改為訂閱制（起步價$7.99/月），同時透過YouTube Shorts和YouTube Create提供免費存取。按片計費的成本故事已被發行量故事所取代。

Omni Flash與Veo的四大差異

這是實際應用決策中最關鍵的問題，目前已有明確答案。

1. 輸入格式

Veo 3.1：文字→影片、圖片→影片，僅此而已。

Omni Flash：文字＋圖片＋音訊＋影片，全部在一個提示中，模型跨輸入進行推理，而非串接處理。你可以提供角色參考圖片、希望角色說的台詞音訊檔，以及希望呈現的光線影片，並獲得一個解決所有三種約束的輸出結果。

2. 編輯方式

Veo 3.1：文字提示重新生成。每次編輯都是使用修改後提示的全新生成。

Omni Flash：基於對話的增量編輯。「讓光線更暖一些。」——下一個回應會在保留其他所有內容的同時編輯現有片段。這是LLM原生架構發揮優勢的功能介面。

3. 音訊

Veo 3.1：與影片同步的音訊。

Omni Flash：同步音訊，加上將輸入音訊用作生成約束的能力。但——這點至關重要——已生成影片的音訊與語音編輯功能被保留。Google以安全理由以「無配音編輯」模式發布模型，顯然是考量到選舉年的深偽風險。預計一旦政策與偵測機制成熟，此限制將會解除。

4. 發行管道

Veo 3.1：Vertex API、AI Studio及高定價的Veo應用程式。

Omni Flash：本週起透過YouTube Shorts和YouTube Create免費存取。付費存取從Google AI Plus的$7.99/月起。這是完全不同的市場策略——Google利用YouTube的發行管道，以零邊際成本將Omni推送給數億用戶。

SynthID加上音訊功能保留的組合所傳遞的訊息

Google將Omni Flash定位為消費者產品優先，開發者產品其次。以下兩項政策選擇清楚表明了這一點：

SynthID為強制性功能。 每份輸出都含有可透過Gemini應用程式、Chrome和Search驗證的不可感知浮水印。API中沒有關閉此功能的開關。對於需要乾淨輸出的商業用途，在開發者API發布之前，你處於錯誤的層次。
音訊/語音編輯功能被保留。 這是該架構支援的最高風險功能——修改現有影片中語音的能力。保留此功能表明Google對監管與聲譽風險所在位置的判斷。不要基於尚未發布的功能規劃生產工作流程。

「Omni Pro」的公告進一步印證了這一點。Google明確表示Pro將在「我們看到相較Flash有跨越式進步時」推出——而非「我們即將宣布發布日期」。這種措辭與一個尚未完成訓練的模型一致，而非一個正在接受政策審查的模型。

今日構建者的應對策略

三個具體判斷：

對於面向消費者的創意工具，Omni Flash是Google發行管道內的新預設選項。 如果你的產品是面向終端用戶的影片創作應用程式，你需要針對它進行專項測試。
對於開發者管道，請稍候。 API「數週內」上線——意味著可能是2週或8週。在沒有API存取且Omni Pro發布時間表不明確的情況下，生產級影片模型領域實際上尚未發生變化。Veo 3.1、Seedance 2.0及Sora 2仍是生產選項。
對於評估，現在就準備好你的提示詞。 選定三個測試類別：接觸物理（彈珠示範）、旁白配音（黏土動畫示範），以及不降質的對話式編輯（多輪編輯對話的第三輪）。在當前生產模型上執行這些測試，以便在Omni Flash出現在你的API金鑰下之前建立好基準。

後續觀察重點

未來兩到四週的四個訊號：

開發者API發布。 定價、速率限制，以及Vertex AI介面是否與AI Studio一致。關鍵問題：API呼叫是否嵌入SynthID，商業帳戶是否可切換？
更長的影片時長。 10秒上限是政策決定。第一次有人在外部生成30秒片段時，這個解禁訊號代表Google對安全管道的信心程度。
音訊編輯功能回歸。 當此功能發布時，意味著深偽風險模型已通過內部審查。這才是比模型本身更有趣的功能故事。
Omni Pro的實際基準測試表現。 「相較Flash有跨越式進步」的措辭與Anthropic在Opus發布前的表述如出一轍——意味著我們應期待顯著的能力躍升，而非漸進式發布。關注系統說明書。

當開發者API上線且Omni Flash與其他影片生成前沿模型並列可存取時，預計它將與Veo 3.1、Seedance、Sora 2及Kling Omni Video O1在同一標準下接受比較。WaveSpeedAI上的Google模型陣容——Veo 3.1、Veo 3 Fast、Gemini 3 Pro Image等——今日即可透過同一API存取。

資料來源：TechCrunch關於Gemini Omni的報導、The Tech Portal I/O總覽、Technobezz關於Omni Flash的報導、TechTimes關於音訊功能保留的報導、9to5Google I/O 2026新聞。

已發布功能

預發布報導的準確與失誤之處

Omni Flash與Veo的四大差異

1. 輸入格式

2. 編輯方式

3. 音訊

4. 發行管道

SynthID加上音訊功能保留的組合所傳遞的訊息

今日構建者的應對策略

後續觀察重點

相關文章

Grok Imagine Video 1.5：xAI 的圖像轉影片模型，支援原生音訊

Vidu Q3 API：為全球開發者與B2B團隊消除企業級AI影片核心瓶頸

什麼是 NVIDIA Cosmos3-Nano？用於物理AI的160億參數全模態世界模型

Gemini Omni Flash vs Seedance 2.0 vs Kling 3.0：多模態創作最佳AI影片模型比較

Kling 3.0 Omni 詳解：多鏡頭故事板、原生音訊，以及勝過 Veo 的地方

Runway的模型市集策略：對AI影片API意味著什麼