Gemini Omni 演示视频泄露——谷歌全新视频模型究竟能做什么

当我们在5月3日报道最初的Omni泄露时，整个故事只是一段UI字符串。八天后，画面已大幅丰富。Gemini移动应用浮现出模型生成的真实示例视频，内部模型ID泄露（bard_eac_video_generation_omni），目前已有足够的亲身体验公开，可以做出一些初步判断。

简而言之：Omni是真实存在的，几乎可以肯定它是一个全新模型，而非Veo 3.1的改名版本。在对构建AI视频产品的人而言最重要的维度上——画质保真度、编辑能力、成本——它与排行榜领先者拥有截然不同的优劣势。距Google I/O 2026（5月19日至20日）还有七天，以下是目前已知的信息。

本周浮现的内容

2026年5月11日，TestingCatalog和X用户@Thomas16937378从Gemini移动应用的视频生成流程中提取了最新示例。模型卡片文本从占位符（“由Omni提供支持”）更新为完整的产品描述：

与Gemini Omni共同创作：认识我们的新视频模型。重新混剪您的视频，直接在对话中编辑，尝试模板，等等。

随之而来的是三个具体细节：

内部模型ID：bard_eac_video_generation_omni。“Bard EAC”是Gemini应用实验性功能的内部命名空间；_omni后缀确认这被视为一个独立模型，而非Veo的变体。
当前预览层级生成片段上限为10秒。Veo 3.1原生上限为8秒，通过延长功能可达16秒；Omni目前介于两者之间，尚未发现可见的延长功能路径。
Gemini设置中新增使用限制标签页，表明这是一次基于积分计量的推出，而非每月订阅配额——与Google发布高成本智能体功能（Deep Research、Notebook Plus）的方式一致。

这在证据质量上有了显著提升。5月3日的泄露仅有UI文本，而这次有UI文本+可用端点+可观察输出+一个计费界面。

人们已看到的两个示例视频

两个示例均来自Gemini应用，均来自拥有AI Pro访问权限、能够在疑似回滚前调用该模型的用户。值得详细描述，因为它们能告诉你Omni属于哪个模型谱系。

示例一——“一位教授在传统黑板上书写三角恒等式数学证明。” 评测者称文字渲染处理得”相当出色”——粉笔书写的方程式清晰可辨，看起来在数学上合理，而非早期视频模型产生的那种符号乱码。手部和手臂动作自然流畅。chromeunboxed的评测仍然指出”输出结果中存在明显的AI痕迹”，但未具体说明——可能是不自然的微观眼球运动、手部网格伪影和略微漂移的粉笔几何形状的某种组合。

示例二——“两名男子在高档餐厅吃意大利面。” 被描述为”相当逼真”。意大利面缠绕测试一年来一直是非正式基准，因为它对隐空间视频中所有会出错的东西构成压力：餐具与食物的接触、流体般的运动，以及遮挡过程中一致的面部身份识别。Omni处理得足以令人称道，但同样附有一个限定语——今年”勉强过关”的门槛已经提高了，Seedance 2.0和Wan 2.7都能可靠地达到这一标准。

两个示例不构成基准测试。但在两个不同难度级别（帧内文字和接触物理）的示例，加上评测者均指出”优秀但不完美”的结果，足以将Omni定位在与Veo 3.1相同的层级——在原始保真度上不高于它，明显低于Seedance 2.0。

Omni真正领先之处：对话驱动的编辑

本周亲身体验报道中最有趣的结果是，Omni的突出能力并非生成质量，而是编辑。具体包括：

通过自然语言对话指令从输入片段中去除水印
场景内的对象替换（“将红色汽车换成蓝色”）
通过对话轮次进行场景改写——描述需要改变的内容，模型返回编辑后的版本，反复迭代

这与Seedance 2.0 Video-Edit或Wan 2.7 Edit目前所展示的功能面有着实质性的不同。这些模型在命令式指令编辑方面表现出色（“去掉耳机”、“将女士的外套改为红色”），但它们无法针对单一源片段维持多轮编辑对话。目前最接近的类比是Kling Omni Video O1的自然语言编辑流程，我们在其发布时曾详细报道。

如果Omni确实作为对话优先的视频编辑器发布——而不仅仅是另一个文本转视频端点——那这就是其独特价值主张的核心故事。Google拥有LLM技术栈，能够以大多数纯视频模型供应商所没有的方式原生支持多轮纠错。

成本故事

最引人注目的数据点：一位测试者报告称两个视频提示消耗了其每日AI Pro配额的86%。这意味着每个片段大约消耗每日Pro配额的43%——这与前沿视频模型的成本状况相符，而非Flash级别的图像生成。

几个含义：

在Gemini应用中运行的预览模型几乎可以肯定是Pro/完整版，而非Flash版。TestingCatalog推测Flash变体将同时发布，但我们目前看到的示例并非来自该版本。
按此速率的每片段积分消耗，相当于零售等价约每10秒片段0.30至0.50美元，与Veo 3.1具有竞争力（预览定价0.50美元/秒），但比Seedance 2.0 Fast更贵。
Google几乎肯定会在I/O发布会上推出明确的使用层级——新的使用限制标签页就是预兆。预计将为普通用户推出Flash成本层级，并在AI Studio为开发者提供按量付费层级。

我们现在认为Omni究竟是什么

三周前有三种可能的解读：Veo改名、独立的Gemini视频模型，或完整的全模态模型。5月11日的证据缩小了这一范围：

独立的模型ID（_omni后缀，而非_veo）排除了直接Veo改名的可能性。Google在预览推出期间通常不会重命名现有模型端点。
以编辑为首的产品定位——“混剪、直接在对话中编辑”——不是Google用于Veo的语言，Veo一直被定位为文本转视频+延长功能。这更像是一个具有不同训练目标的独立模型。
在任何泄露示例中均无图像输出证据。如果这是名称所暗示的统一全模态模型，你会期望看到图像生成从同一端点浮现。迄今为止，每次泄露都是纯视频内容。

目前最可能的解读：Omni是一个新的Gemini训练视频模型，与Veo并列而非取代它，具有以编辑为首的产品定位。 Nano Banana表明Google愿意在同一模态内进行品牌区分（文本转图像在Nano Banana和Gemini 3 Flash Image名称下均可运行）。Omni与Veo共存与这种模式相似。

该名称所暗示的完全统一全模态愿景可能仍属于未来一代。下周即将发布的——如果下周发布的话——是一款具有Google原生LLM对话界面的竞争力视频编辑器。

这对评估工作带来的改变

如果你正在构建任何涉及AI视频的产品，未来两周内有三件事会发生改变：

在评估套件中加入编辑基准测试。 大多数视频模型评估仅涉及文本转视频。如果Omni的卖点是对话驱动的编辑，你的对比就不能只看生成保真度——你需要一套”编辑这个片段”的提示词，测试多轮连贯性、编辑过程中的对象身份保持，以及第二轮和第三轮中的指令遵循。
将Seedance 2.0 / Wan 2.7 / Omni三角形作为工作集。 Sora 2和Veo 3.1现在最好被理解为与这一三角形对比的上一代参考。三者各有明确优势：Seedance在保真度上领先，Wan在多模态参考输入上领先，Omni（暂定）在对话编辑上领先。
为Pro级定价做预算。 每日配额消耗43%这一数据点是本周最响亮的信号。如果你的工作流程涉及大规模生成片段，Flash级发布将比Pro级更重要。请密切关注该公告。

未来一周

Google I/O于2026年5月19日开幕。周二主题演讲环节是Gemini和DeepMind公告传统上发布的时间。一次如此受控、如此完整的发布前泄露——模型卡片文本、示例视频、计费界面，全在一周内出现——与已通过内部审核、只等日历时机的发布节奏相符。

当天值得关注的四件事：

是否有Flash层级，费用是多少？
编辑功能卖点是否属实，还是只是单样本噪音？具体来说，Google是否会在舞台上现场展示多轮编辑？
API路径是什么？ AI Studio？Vertex？还是两者都有？
音频同步：泄露的示例中没有一个涉及Omni是否像Veo 3.1那样生成同步音频。如果不能，这是一个真实的差距。

在WaveSpeedAI上尝试当前替代方案

在Omni发布之前，2026年视频生成领域的其余力量已在WaveSpeedAI上通过统一API上线：

Seedance 2.0 — 当前原始保真度SOTA，提供低延迟的Fast变体
Wan 2.7 — 阿里巴巴的富参考视频模型
Kling V3.0 Pro — 快手的高保真选择
Kling Omni Video O1 Edit — 自然语言视频编辑，目前与Omni定位最接近的类比
Sora 2 — OpenAI的产品
Veo 3.1 — 当前Google视频模型

当Gemini Omni公开发布时，预计在数日内即可通过同一API进行对比测试。

本周浮现的内容

人们已看到的两个示例视频

Omni真正领先之处：对话驱动的编辑

成本故事

我们现在认为Omni究竟是什么

这对评估工作带来的改变

未来一周

在WaveSpeedAI上尝试当前替代方案

相关文章

GPT-5.6出现在OpenAI的Codex日志中——这究竟意味着什么

Seedance 2.0 完整指南：多模态视频创作

谷歌神秘的'Omni'视频模型：Gemini界面泄露在I/O 2026前告诉我们什么

PixVerse C1 图像转视频现已登陆WaveSpeedAI

PixVerse C1 文字生成视频现已登陆WaveSpeedAI

PixVerse C1 Transition现已登陆WaveSpeedAI