Gemini Omni Flash 正式发布：10秒多模态视频、SynthID水印，音频编辑功能暂未开放

5月3日的UI字符串泄露和5月11日的演示泄露都预示了这一刻。2026年5月19日，Gemini Omni Flash正式上线——这是谷歌Omni框架中首个公开模型，当天即在Gemini应用、Google Flow和YouTube Shorts上全面开放。它能够从单个多模态提示生成带有同步音频的10秒视频片段，并支持通过对话方式编辑这些片段。值得注意的是，它不支持编辑生成视频中的语音或音频——这一功能被刻意保留。

以下是实际发布的内容、发布前泄露信息的准确与偏差之处，以及Omni Flash在实际生产决策中相较于Veo、Sora 2和Seedance 2.0的定位。

正式发布的内容

详情	确认信息
模型名称	Gemini Omni Flash
生成时长	10秒，含同步音频
输入	文本 + 图像 + 音频 + 视频（任意组合）
输出	一段连贯视频——跨输入推理生成，而非拼接
编辑	对话式聊天（“改变光线”、“把狗换成猫”）
水印	每个输出均嵌入SynthID
分发渠道（消费者端）	Gemini应用、YouTube Shorts、YouTube Create、Flow
分发渠道（付费订阅）	Gemini AI Plus（7.99美元/月）、Pro、Ultra
分发渠道（开发者API）	“数周内”开放
高端版本	Omni Pro已规划，无发布日期

10秒上限是最有趣的产品决策。谷歌在发布会上给出的官方理由：“这不是模型限制，而是基于希望让更多人使用，以及预判大多数用户目前不会想要制作更长视频的综合考量。” 这比Veo 3.1的8秒上限（那是架构层面的天花板）姿态更为保守。一旦谷歌放开政策限制，Omni Flash理论上可以生成更长的视频。

我们发布前报道的准确与偏差

准确之处：

Omni是全新模型，而非Veo的品牌重塑。架构和产品形态明显不同。
以编辑为核心的产品定位。对话式场景重写是演示的重点。
Flash + Pro的双层级拆分已经到来。
音频同步是真实的，并于首日上线。

偏差之处：

5月11日泄露中”原始保真度落后Seedance 2.0”的说法，没有得到谷歌发布会任何内容的支撑。正式发布的演示（蛋白质折叠的黏土动画讲解；带有物理精准音效的弹跳弹珠）是专门针对接触物理、材质、配音旁白和多步叙事精心选取的——这些恰恰是Seedance存在明显短板的领域。在没有独立基准测试的情况下，我们无法断言Omni领先，但”落后”的说法是仓促的。
5月11日泄露中”占日配额43%成本”的数据点。首日定价现已改为订阅制（起步层级7.99美元/月），并通过YouTube Shorts和YouTube Create提供免费访问。按片段计费的故事已被分发量规模的故事所取代。

Omni Flash区别于Veo的四个核心差异

这是生产决策中最重要的问题，目前已有明确答案。

1. 输入

Veo 3.1：文本→视频。图像→视频。仅此而已。

Omni Flash：文本 + 图像 + 音频 + 视频，全部在一个提示中，模型跨输入进行推理，而非简单拼接。你可以提供一张角色参考图像、一段希望角色说出的台词音频，以及一段你想要的光线效果视频，最终得到一个同时满足三个条件的输出。

2. 编辑

Veo 3.1：基于文本提示的重新生成。每次编辑都是用修改后的提示进行全新生成。

Omni Flash：基于聊天的增量式编辑。“让光线更暖一些。“——下一个响应会在保留其他内容的同时编辑现有片段。这正是原生LLM架构发挥优势的地方。

3. 音频

Veo 3.1：与视频同步的音频。

Omni Flash：同步音频加上将输入音频作为生成约束条件的能力。但——这一点很重要——对生成视频的音频和语音编辑功能被保留。谷歌以”无配音旁白编辑”模式发布该模型，安全原因显然与选举年深度伪造的风险敞口有关。预计一旦政策和检测体系稳定下来，这一限制将会放开。

4. 分发

Veo 3.1：Vertex API、AI Studio以及Veo应用，均为高端定价。

Omni Flash：本周起通过YouTube Shorts和YouTube Create免费访问。付费访问从Google AI Plus的7.99美元/月起步。这是完全不同的市场策略——谷歌正在利用YouTube的分发渠道，以零边际成本将Omni推送给数亿用户。

SynthID与音频限制的组合告诉你什么

谷歌将Omni Flash首先定位为消费者产品，其次才是开发者产品。两项政策选择清楚地说明了这一点：

SynthID不可关闭。 每个输出都带有不可感知的水印，可通过Gemini应用、Chrome和搜索进行验证。没有API开关可以关闭这一功能。对于需要干净输出的商业用例，在开发者API上线之前，你处于错误的层级。
音频/语音编辑功能被保留。 这是该架构所支持的最高风险能力——修改现有视频中语音的能力。将其保留表明谷歌对监管和声誉风险所在位置的判断。不要围绕尚未发布的功能规划生产工作流。

“Omni Pro”的宣布进一步印证了这一点。谷歌明确表示Pro将在”看到相比Flash的跨越式提升时”到来——而非”我们很快会有发布日期”。这种措辞与一个尚未完成训练的模型相符，而非一个仅受政策审查限制的模型。

这对当今构建者意味着什么

三个具体判断：

对于面向消费者的创意工具，Omni Flash已成为谷歌分发渠道内的新默认选项。 如果你的产品是面向终端用户的视频创作应用，你需要专门针对它进行测试。
对于开发者管道，请保持等待。 API”数周内”开放——意味着可能是2周，也可能是8周。在没有API访问权限、没有Omni Pro发布时间表的情况下，生产级视频模型领域实际上尚未发生变化。Veo 3.1、Seedance 2.0和Sora 2仍是当前的生产选项。
对于评估工作，现在就准备好你的提示。 选择三个测试类别：接触物理（弹珠演示）、配音旁白叙述（黏土动画演示）以及对话式编辑而不降质（多轮编辑会话的第三轮）。在你当前的生产模型上运行这些测试，以便在Omni Flash出现在你的API密钥下之前建立基准线。

需要关注的信号

未来两到四周内的四个信号：

开发者API发布。 定价、速率限制，以及Vertex AI界面是否与AI Studio保持一致。核心问题：API调用是否嵌入SynthID，商业账户是否可以切换？
更长的视频时长。 10秒上限是政策决定。一旦有人在实际使用中生成30秒片段，这一突破将表明谷歌对安全管道的信心。
音频编辑功能的回归。 当这一功能上线时，意味着深度伪造风险模型已通过内部审查。这比模型本身更值得关注。
Omni Pro的实际基准表现。 “相比Flash的跨越式提升”的措辞与Anthropic在Opus发布前使用的同一套说辞如出一辙——意味着我们应该期待有实质意义的能力跃升，而非渐进式发布。关注其系统说明卡。

当开发者API上线、Omni Flash与其他视频生成前沿模型并肩可用时，预计会在同一框架下将其与Veo 3.1、Seedance、Sora 2和Kling Omni Video O1进行比较。WaveSpeedAI上当前的谷歌模型阵容——Veo 3.1、Veo 3 Fast、Gemini 3 Pro Image及其他——今天已在同一API下上线。

正式发布的内容

我们发布前报道的准确与偏差

Omni Flash区别于Veo的四个核心差异

1. 输入

2. 编辑

3. 音频

4. 分发

SynthID与音频限制的组合告诉你什么

这对当今构建者意味着什么

需要关注的信号

相关文章

Grok Imagine Video 1.5：xAI的图像转视频模型，支持原生音频

Vidu Q3 API：为全球开发者与企业团队消除AI视频核心瓶颈

NVIDIA Cosmos3-Nano 是什么？面向物理AI的160亿参数全模态世界模型

Gemini Omni Flash vs Seedance 2.0 vs Kling 3.0：多模态创作最佳AI视频模型对比

Kling 3.0 Omni详解：多镜头分镜、原生音频及其超越Veo之处

Runway的模型市场策略：对AI视频API意味着什么