Gemini Omni Flash 正式发布:10秒多模态视频、SynthID水印,音频编辑功能暂未开放
谷歌在I/O 2026上发布了Gemini Omni Flash——一个能够跨文本、图像、音频和视频进行推理的单一模型,可生成带同步音频的连贯视频输出。本文详解已发布功能、尚未开放的功能,以及它与Veo的区别。
5月3日的UI字符串泄露和5月11日的演示泄露都预示了这一刻。2026年5月19日,Gemini Omni Flash正式上线——这是谷歌Omni框架中首个公开模型,当天即在Gemini应用、Google Flow和YouTube Shorts上全面开放。它能够从单个多模态提示生成带有同步音频的10秒视频片段,并支持通过对话方式编辑这些片段。值得注意的是,它不支持编辑生成视频中的语音或音频——这一功能被刻意保留。
以下是实际发布的内容、发布前泄露信息的准确与偏差之处,以及Omni Flash在实际生产决策中相较于Veo、Sora 2和Seedance 2.0的定位。
正式发布的内容
| 详情 | 确认信息 |
|---|---|
| 模型名称 | Gemini Omni Flash |
| 生成时长 | 10秒,含同步音频 |
| 输入 | 文本 + 图像 + 音频 + 视频(任意组合) |
| 输出 | 一段连贯视频——跨输入推理生成,而非拼接 |
| 编辑 | 对话式聊天(“改变光线”、“把狗换成猫”) |
| 水印 | 每个输出均嵌入SynthID |
| 分发渠道(消费者端) | Gemini应用、YouTube Shorts、YouTube Create、Flow |
| 分发渠道(付费订阅) | Gemini AI Plus(7.99美元/月)、Pro、Ultra |
| 分发渠道(开发者API) | “数周内”开放 |
| 高端版本 | Omni Pro已规划,无发布日期 |
10秒上限是最有趣的产品决策。谷歌在发布会上给出的官方理由:“这不是模型限制,而是基于希望让更多人使用,以及预判大多数用户目前不会想要制作更长视频的综合考量。” 这比Veo 3.1的8秒上限(那是架构层面的天花板)姿态更为保守。一旦谷歌放开政策限制,Omni Flash理论上可以生成更长的视频。
我们发布前报道的准确与偏差
准确之处:
- Omni是全新模型,而非Veo的品牌重塑。架构和产品形态明显不同。
- 以编辑为核心的产品定位。对话式场景重写是演示的重点。
- Flash + Pro的双层级拆分已经到来。
- 音频同步是真实的,并于首日上线。
偏差之处:
- 5月11日泄露中”原始保真度落后Seedance 2.0”的说法,没有得到谷歌发布会任何内容的支撑。正式发布的演示(蛋白质折叠的黏土动画讲解;带有物理精准音效的弹跳弹珠)是专门针对接触物理、材质、配音旁白和多步叙事精心选取的——这些恰恰是Seedance存在明显短板的领域。在没有独立基准测试的情况下,我们无法断言Omni领先,但”落后”的说法是仓促的。
- 5月11日泄露中”占日配额43%成本”的数据点。首日定价现已改为订阅制(起步层级7.99美元/月),并通过YouTube Shorts和YouTube Create提供免费访问。按片段计费的故事已被分发量规模的故事所取代。
Omni Flash区别于Veo的四个核心差异
这是生产决策中最重要的问题,目前已有明确答案。
1. 输入
Veo 3.1:文本→视频。图像→视频。仅此而已。
Omni Flash:文本 + 图像 + 音频 + 视频,全部在一个提示中,模型跨输入进行推理,而非简单拼接。你可以提供一张角色参考图像、一段希望角色说出的台词音频,以及一段你想要的光线效果视频,最终得到一个同时满足三个条件的输出。
2. 编辑
Veo 3.1:基于文本提示的重新生成。每次编辑都是用修改后的提示进行全新生成。
Omni Flash:基于聊天的增量式编辑。“让光线更暖一些。“——下一个响应会在保留其他内容的同时编辑现有片段。这正是原生LLM架构发挥优势的地方。
3. 音频
Veo 3.1:与视频同步的音频。
Omni Flash:同步音频加上将输入音频作为生成约束条件的能力。但——这一点很重要——对生成视频的音频和语音编辑功能被保留。谷歌以”无配音旁白编辑”模式发布该模型,安全原因显然与选举年深度伪造的风险敞口有关。预计一旦政策和检测体系稳定下来,这一限制将会放开。
4. 分发
Veo 3.1:Vertex API、AI Studio以及Veo应用,均为高端定价。
Omni Flash:本周起通过YouTube Shorts和YouTube Create免费访问。付费访问从Google AI Plus的7.99美元/月起步。这是完全不同的市场策略——谷歌正在利用YouTube的分发渠道,以零边际成本将Omni推送给数亿用户。
SynthID与音频限制的组合告诉你什么
谷歌将Omni Flash首先定位为消费者产品,其次才是开发者产品。两项政策选择清楚地说明了这一点:
- SynthID不可关闭。 每个输出都带有不可感知的水印,可通过Gemini应用、Chrome和搜索进行验证。没有API开关可以关闭这一功能。对于需要干净输出的商业用例,在开发者API上线之前,你处于错误的层级。
- 音频/语音编辑功能被保留。 这是该架构所支持的最高风险能力——修改现有视频中语音的能力。将其保留表明谷歌对监管和声誉风险所在位置的判断。不要围绕尚未发布的功能规划生产工作流。
“Omni Pro”的宣布进一步印证了这一点。谷歌明确表示Pro将在”看到相比Flash的跨越式提升时”到来——而非”我们很快会有发布日期”。这种措辞与一个尚未完成训练的模型相符,而非一个仅受政策审查限制的模型。
这对当今构建者意味着什么
三个具体判断:
- 对于面向消费者的创意工具,Omni Flash已成为谷歌分发渠道内的新默认选项。 如果你的产品是面向终端用户的视频创作应用,你需要专门针对它进行测试。
- 对于开发者管道,请保持等待。 API”数周内”开放——意味着可能是2周,也可能是8周。在没有API访问权限、没有Omni Pro发布时间表的情况下,生产级视频模型领域实际上尚未发生变化。Veo 3.1、Seedance 2.0和Sora 2仍是当前的生产选项。
- 对于评估工作,现在就准备好你的提示。 选择三个测试类别:接触物理(弹珠演示)、配音旁白叙述(黏土动画演示)以及对话式编辑而不降质(多轮编辑会话的第三轮)。在你当前的生产模型上运行这些测试,以便在Omni Flash出现在你的API密钥下之前建立基准线。
需要关注的信号
未来两到四周内的四个信号:
- 开发者API发布。 定价、速率限制,以及Vertex AI界面是否与AI Studio保持一致。核心问题:API调用是否嵌入SynthID,商业账户是否可以切换?
- 更长的视频时长。 10秒上限是政策决定。一旦有人在实际使用中生成30秒片段,这一突破将表明谷歌对安全管道的信心。
- 音频编辑功能的回归。 当这一功能上线时,意味着深度伪造风险模型已通过内部审查。这比模型本身更值得关注。
- Omni Pro的实际基准表现。 “相比Flash的跨越式提升”的措辞与Anthropic在Opus发布前使用的同一套说辞如出一辙——意味着我们应该期待有实质意义的能力跃升,而非渐进式发布。关注其系统说明卡。
当开发者API上线、Omni Flash与其他视频生成前沿模型并肩可用时,预计会在同一框架下将其与Veo 3.1、Seedance、Sora 2和Kling Omni Video O1进行比较。WaveSpeedAI上当前的谷歌模型阵容——Veo 3.1、Veo 3 Fast、Gemini 3 Pro Image及其他——今天已在同一API下上线。
