← 博客

Gemini Omni 演示视频泄露——谷歌全新视频模型究竟能做什么

在最初的UI字符串泄露八天后,首批Gemini Omni样本视频浮出水面。其对话驱动编辑能力表现强劲,但在原始画质方面落后于Seedance 2.0,且每段视频消耗约43%的AI Pro每日配额。这是I/O 2026开幕前一周的客观评测。

1 min read

当我们在5月3日报道最初的Omni泄露时,整个故事只是一段UI字符串。八天后,画面已大幅丰富。Gemini移动应用浮现出模型生成的真实示例视频,内部模型ID泄露(bard_eac_video_generation_omni),目前已有足够的亲身体验公开,可以做出一些初步判断。

简而言之:Omni是真实存在的,几乎可以肯定它是一个全新模型,而非Veo 3.1的改名版本。在对构建AI视频产品的人而言最重要的维度上——画质保真度、编辑能力、成本——它与排行榜领先者拥有截然不同的优劣势。距Google I/O 2026(5月19日至20日)还有七天,以下是目前已知的信息。

本周浮现的内容

2026年5月11日,TestingCatalog和X用户@Thomas16937378从Gemini移动应用的视频生成流程中提取了最新示例。模型卡片文本从占位符(“由Omni提供支持”)更新为完整的产品描述:

与Gemini Omni共同创作:认识我们的新视频模型。重新混剪您的视频,直接在对话中编辑,尝试模板,等等。

随之而来的是三个具体细节:

  • 内部模型IDbard_eac_video_generation_omni。“Bard EAC”是Gemini应用实验性功能的内部命名空间;_omni后缀确认这被视为一个独立模型,而非Veo的变体。
  • 当前预览层级生成片段上限为10秒。Veo 3.1原生上限为8秒,通过延长功能可达16秒;Omni目前介于两者之间,尚未发现可见的延长功能路径。
  • Gemini设置中新增使用限制标签页,表明这是一次基于积分计量的推出,而非每月订阅配额——与Google发布高成本智能体功能(Deep Research、Notebook Plus)的方式一致。

这在证据质量上有了显著提升。5月3日的泄露仅有UI文本,而这次有UI文本+可用端点+可观察输出+一个计费界面。

人们已看到的两个示例视频

两个示例均来自Gemini应用,均来自拥有AI Pro访问权限、能够在疑似回滚前调用该模型的用户。值得详细描述,因为它们能告诉你Omni属于哪个模型谱系。

示例一——“一位教授在传统黑板上书写三角恒等式数学证明。” 评测者称文字渲染处理得”相当出色”——粉笔书写的方程式清晰可辨,看起来在数学上合理,而非早期视频模型产生的那种符号乱码。手部和手臂动作自然流畅。chromeunboxed的评测仍然指出”输出结果中存在明显的AI痕迹”,但未具体说明——可能是不自然的微观眼球运动、手部网格伪影和略微漂移的粉笔几何形状的某种组合。

示例二——“两名男子在高档餐厅吃意大利面。” 被描述为”相当逼真”。意大利面缠绕测试一年来一直是非正式基准,因为它对隐空间视频中所有会出错的东西构成压力:餐具与食物的接触、流体般的运动,以及遮挡过程中一致的面部身份识别。Omni处理得足以令人称道,但同样附有一个限定语——今年”勉强过关”的门槛已经提高了,Seedance 2.0和Wan 2.7都能可靠地达到这一标准。

两个示例不构成基准测试。但在两个不同难度级别(帧内文字和接触物理)的示例,加上评测者均指出”优秀但不完美”的结果,足以将Omni定位在与Veo 3.1相同的层级——在原始保真度上不高于它,明显低于Seedance 2.0。

Omni真正领先之处:对话驱动的编辑

本周亲身体验报道中最有趣的结果是,Omni的突出能力并非生成质量,而是编辑。具体包括:

  • 通过自然语言对话指令从输入片段中去除水印
  • 场景内的对象替换(“将红色汽车换成蓝色”)
  • 通过对话轮次进行场景改写——描述需要改变的内容,模型返回编辑后的版本,反复迭代

这与Seedance 2.0 Video-Edit或Wan 2.7 Edit目前所展示的功能面有着实质性的不同。这些模型在命令式指令编辑方面表现出色(“去掉耳机”、“将女士的外套改为红色”),但它们无法针对单一源片段维持多轮编辑对话。目前最接近的类比是Kling Omni Video O1的自然语言编辑流程,我们在其发布时曾详细报道

如果Omni确实作为对话优先的视频编辑器发布——而不仅仅是另一个文本转视频端点——那这就是其独特价值主张的核心故事。Google拥有LLM技术栈,能够以大多数纯视频模型供应商所没有的方式原生支持多轮纠错。

成本故事

最引人注目的数据点:一位测试者报告称两个视频提示消耗了其每日AI Pro配额的86%。这意味着每个片段大约消耗每日Pro配额的43%——这与前沿视频模型的成本状况相符,而非Flash级别的图像生成。

几个含义:

  1. 在Gemini应用中运行的预览模型几乎可以肯定是Pro/完整版,而非Flash版。TestingCatalog推测Flash变体将同时发布,但我们目前看到的示例并非来自该版本。
  2. 按此速率的每片段积分消耗,相当于零售等价约每10秒片段0.30至0.50美元,与Veo 3.1具有竞争力(预览定价0.50美元/秒),但比Seedance 2.0 Fast更贵。
  3. Google几乎肯定会在I/O发布会上推出明确的使用层级——新的使用限制标签页就是预兆。预计将为普通用户推出Flash成本层级,并在AI Studio为开发者提供按量付费层级。

我们现在认为Omni究竟是什么

三周前有三种可能的解读:Veo改名、独立的Gemini视频模型,或完整的全模态模型。5月11日的证据缩小了这一范围:

  • 独立的模型ID_omni后缀,而非_veo)排除了直接Veo改名的可能性。Google在预览推出期间通常不会重命名现有模型端点。
  • 以编辑为首的产品定位——“混剪、直接在对话中编辑”——不是Google用于Veo的语言,Veo一直被定位为文本转视频+延长功能。这更像是一个具有不同训练目标的独立模型。
  • 在任何泄露示例中均无图像输出证据。如果这是名称所暗示的统一全模态模型,你会期望看到图像生成从同一端点浮现。迄今为止,每次泄露都是纯视频内容。

目前最可能的解读:Omni是一个新的Gemini训练视频模型,与Veo并列而非取代它,具有以编辑为首的产品定位。 Nano Banana表明Google愿意在同一模态内进行品牌区分(文本转图像在Nano Banana和Gemini 3 Flash Image名称下均可运行)。Omni与Veo共存与这种模式相似。

该名称所暗示的完全统一全模态愿景可能仍属于未来一代。下周即将发布的——如果下周发布的话——是一款具有Google原生LLM对话界面的竞争力视频编辑器。

这对评估工作带来的改变

如果你正在构建任何涉及AI视频的产品,未来两周内有三件事会发生改变:

  1. 在评估套件中加入编辑基准测试。 大多数视频模型评估仅涉及文本转视频。如果Omni的卖点是对话驱动的编辑,你的对比就不能只看生成保真度——你需要一套”编辑这个片段”的提示词,测试多轮连贯性、编辑过程中的对象身份保持,以及第二轮和第三轮中的指令遵循。
  2. 将Seedance 2.0 / Wan 2.7 / Omni三角形作为工作集。 Sora 2和Veo 3.1现在最好被理解为与这一三角形对比的上一代参考。三者各有明确优势:Seedance在保真度上领先,Wan在多模态参考输入上领先,Omni(暂定)在对话编辑上领先。
  3. 为Pro级定价做预算。 每日配额消耗43%这一数据点是本周最响亮的信号。如果你的工作流程涉及大规模生成片段,Flash级发布将比Pro级更重要。请密切关注该公告。

未来一周

Google I/O于2026年5月19日开幕。周二主题演讲环节是Gemini和DeepMind公告传统上发布的时间。一次如此受控、如此完整的发布前泄露——模型卡片文本、示例视频、计费界面,全在一周内出现——与已通过内部审核、只等日历时机的发布节奏相符。

当天值得关注的四件事:

  1. 是否有Flash层级,费用是多少?
  2. 编辑功能卖点是否属实,还是只是单样本噪音?具体来说,Google是否会在舞台上现场展示多轮编辑?
  3. API路径是什么? AI Studio?Vertex?还是两者都有?
  4. 音频同步:泄露的示例中没有一个涉及Omni是否像Veo 3.1那样生成同步音频。如果不能,这是一个真实的差距。

在WaveSpeedAI上尝试当前替代方案

在Omni发布之前,2026年视频生成领域的其余力量已在WaveSpeedAI上通过统一API上线:

当Gemini Omni公开发布时,预计在数日内即可通过同一API进行对比测试。