← 博客

Gemini 3.5 Omni 与 Omni Flash:多模态追踪器

谷歌推出了 Gemini Omni 作为多模态世界模型。以下是开发者可以验证的内容,以及多模态生成领域值得关注的动态。

By Dora 3 min read
Gemini 3.5 Omni 与 Omni Flash:多模态追踪器

一份关于 Google 实际发布了什么、什么仍是演示,以及开发者本周应该怎么做的工作笔记。

我花了一个下午试图弄清楚能否从代码中调用 Gemini 3.5 Omni。结论是不能,至少现在还不行。Gemini 应用向我展示了 Omni Flash 从一张照片和一行提示词生成视频的过程,效果不错——但我真正需要的东西,一个可以接入流水线的 API 端点,还不存在。这个落差就是整个故事的核心。本文记录了截至 2026 年 6 月初 Omni 的真实现状,以及对于在生产环境中运行视频生成的人来说,什么变了,什么没变。

如果你时间紧,简短版本是:Omni 是一个真正的视频生成模型,面向消费者已上线,开发者 API 访问仍处于”未来数周内”的状态。现在不要在它上面构建。以下是详细内容。

Google 所说的”Gemini Omni”是什么

定位:用于视频、图像和模拟生成的多模态世界模型

Google 自己的表述是 Gemini Omni 能从任意输入创建任何内容,从视频开始。关键词在于从……开始。目前 Omni 公开只做一件事:接收文本、图像、音频和已有视频片段,然后输出视频。

使它不只是文本转视频工具的原因在于,它是在对这些输入进行跨模态推理,而不是简单地将它们拼接在一起。Google 也在物理性上下了很大功夫——TechCrunch 对 I/O 发布会的报道指出,输出结果旨在体现对运动、重力和流体行为的理解。在演示中,这意味着更少的肢体变形和背景融化。等我把四十个片段都跑一遍之后,再来评价一致性的说法,而不是凭九个演示。

Omni 与 Gemini 3.5 Flash / Pro 的区别(输出模态)

这是大多数报道搞混的部分,我直说吧。Omni 和 3.5 系列不是同一类模型。

模型输入输出用途
Gemini Omni / Omni Flash文本、图像、音频、视频视频生成和编辑视频片段
Gemini 3.5 Flash文本、图像、音频、视频文本、代码智能体任务、推理、UI 生成
Gemini 3.5 Pro文本、图像、音频、视频文本、代码相同,但能力上限更高(仍在推出中)

3.5 Flash 是输入多模态——它理解你的视频并给出文字回答。Omni 是输出多模态——它理解你的输入并返回一段视频。Google 的博客说得很直白:Gemini Omni 是我们能从任意输入创建任何内容的新模型,从视频开始;而 3.5 系列是将前沿智能与行动能力结合用于智能体工作的系列。如果你一直把”Gemini 3.5 能做视频”视为一项能力,现在请把它拆成两个。它们存在于你架构的不同层次。

Omni Flash 定位与完整 Omni 的对比

Omni Flash 是实际发布的版本。它是更快、更便宜的档位,据报道其片段长度约在 10 秒上限——这被描述为部署选择而非模型硬性限制,暗示之后可能会延长。一个更高保真度、更长片段的 Omni 档位在其之上,但那个主要还活在演示视频里。所以当有人说”Omni 发布了”,他们指的是消费者应用中的 Omni Flash。

I/O 2026 确认的内容

面向公众的公告与开发者访问时间线

I/O 于 2026 年 5 月 19-20 日举行。Google 确认了 Omni、3.5 系列以及一批智能体功能。关键区别:消费者访问已发布,开发者访问还没有。Gemini Omni Flash 正在通过 Gemini 应用和 Google Flow 向全球所有 Google AI Plus、Pro 和 Ultra 订阅者推出,YouTube Shorts 上也提供免费访问。然后是每个开发者都应该划重点的那句话:在未来数周内,我们也将通过 API 向开发者和企业客户推出。

“未来数周”。没有日期,没有模型 ID,没有定价表。

Omni 的演示场景和展示内容

演示是对话式视频编辑——修改一个元素、改变整个场景、在多轮对话中保持角色一致性。一个例子:输入一段小提琴手的片段,然后发出编辑指令,如”把小提琴手带到新的环境”和”让小提琴消失”,每次都在上一次的基础上构建。这是一种以编辑为核心的定位,与纯文本转视频是截然不同的赌注。Google 还确认每个 Omni 输出都带有 SynthID 水印,如果你的下游用途有溯源要求,这一点很重要。

演示与开发者可用性之间的落差

这里我停顿了一下。面向消费者的推出和 API 是两个不同的产品,有着两种不同的可靠性保证。这不是悲观,只是”我看到它在应用里工作”和”我可以在凌晨 3 点批处理任务触发时依赖它”之间的区别。

为什么这对多模态开发者至关重要

视频生成是独立于多模态理解的问题

如果你的产品已经在调用 Gemini 3.5 来理解上传的媒体,Omni 不能替代它。这是一个额外的能力——生成——你会将其附加进去,而不是直接替换。在架构图中把它们当作一行来处理,是让你措手不及的根源。

Omni 在现有视频模型(Veo 等)中的定位

这是实际问题。Google 已经通过有文档的 Gemini API 和 Vertex AI 路径提供 Veo 3.1,所以今天 Veo 是你实际上能集成的 Google 视频模型。Omni 在 API 层还不是 Veo 的替代品——没有迁移文档说所有 Veo 路由都切换到 Omni,Veo 的页面仍然是活跃的。不过意图上的差异是真实的:Veo 围绕文本转视频构建,而 Omni 的核心是多输入推理和对话式编辑。对于开发者来说,这意味着 Omni 的定位是将一条链路——转录、图像理解、生成——压缩成一次调用。这是否值得围绕它重建,完全取决于它是否真的发布 API。

如果 Omni 实现开发者访问,会有什么变化

如果——当——API 上线,吸引力不在于直接省钱,而在于减少接口。一个接收混合媒体并返回编辑后视频的模型,意味着更少需要维护的 SDK、更少需要处理的错误分类、更少需要跟踪的 SLA。这才是我真正在乎的那种摩擦减少。但”如果它发布”这几个字在这句话里承担了很多重量。

目前尚不清楚的内容

我特别标记这些,因为把它们当作已成定局来写,是团队踩坑的方式。

  • API 可用性和时间线需要验证。 “未来数周”是唯一的官方信号。截至 2026 年 6 月初,Google 开发者文档中没有端点,也没有模型 ID。
  • 视频工作负载的定价 — 未知。消费者访问被打包在 Google AI 订阅档位(Plus、Pro、Ultra)中,但按次调用的 API 定价尚未公布。视频帧会快速推高 token 数量,不要假设与文本模型相同的经济性。
  • 输出规格 — Omni Flash 片段似乎上限在 10 秒左右;API 档位的完整分辨率、最大长度和精确控制输入没有文档记录。
  • 商业使用权限 — 开发者使用的条款尚未明确。SynthID 水印已确认;通过 API 生成输出的许可条款尚未公布。

如果某个供应商或博客告诉你 Omni API”对所有人开放”,他们已经超越了现有证据。我查过了。

今天如何围绕 Omni 制定计划

不要基于演示迁移生产工作负载

这很显然,但值得说,因为这些演示确实令人印象深刻,而这正是团队犯错误的时机。演示是受控条件下的最佳情况。生产环境是 2 倍流量下的最坏情况。在有具备文档化延迟和限制的端点之前,Omni 留在你的”关注中”列,而不是”依赖”列。

在多个视频生成模型上测试备用路径

我对同一个生成任务跑多个模型,正是为了让这样的发布不会让我陷入困境。如果 Omni 的 API 下个月上线,很好——我希望能把它接进来与我现有的方案对比,而不是为了发现它在我的特定场景下表现更差而重建整个流水线。每次模型发布的教训是:别人演示里的”真的很好”毫无意义,直到它在你的工作流中以你的频率表现良好。

以模型聚合对冲供应商特定的发布节奏

这部分与我的工作方式直接相关。当一个模型先向消费者发布、开发者”未来数周内”再跟进时,不会手忙脚乱的开发者,是那些从来没有把自己绑定在某个供应商发布日历上的人。通过像 WaveSpeedAI 这样的统一多模型访问层运行视频生成,意味着新模型是你在它准备好时测试和采用的东西,而不是你被迫进行的迁移。我并不是说这对所有人都正确——如果你只用一个模型,这层抽象就是额外开销。但以我的切换频率,一个访问层覆盖多个模型,胜过为每个供应商维护一套集成。价值不在于”更多模型”,而在于不必每次格局改变时都重建。而这个月,格局改变了。

常见问题

今天能通过 API 使用 Gemini Omni 吗? 不能。截至 2026 年 6 月初,Omni Flash 在 Gemini 应用、Google Flow 以及面向 AI Plus/Pro/Ultra 订阅者的 YouTube Shorts 中上线。Google 表示开发者和企业 API 访问”未来数周”内推出,但目前没有已公布的模型 ID、端点或定价。

Gemini Omni 和 Gemini 3.5 Pro 有什么区别? 输出模态不同。Omni 生成视频(输出多模态)。Gemini 3.5 Pro 理解文本、图像、音频和视频,但输出文本和代码(输入多模态)。不同的工作,存在于你架构的不同层次。

Gemini Omni 能生成视频吗? 是的——这是它的核心功能。它以文本、图像、音频和视频片段为输入,生成视频,并支持多轮对话式编辑。所有输出都带有 SynthID 水印。

开发者何时可以访问 Omni? 未确认。Google 唯一的公开措辞是”未来数周内”。在 Google 发布 API 文档之前,你在其他地方看到的任何具体日期都视为推测。

Omni 与 Veo 等其他视频生成模型相比如何? Veo 3.1 是今天你实际上可以通过 Gemini API 和 Vertex AI 调用的模型。Omni 的特点是多输入推理和以编辑为核心的设计,而非纯文本转视频。但在 Omni 的 API 发布之前,Veo 仍是生产视频生成的实际 Google 基准。

结论

我的结论是:Omni 是真实存在的,编辑优先的方式是一个不同且有趣的赌注,Gemini 3.5 Omni 值得密切关注。但这周不值得在它上面构建。消费者端已上线、开发者端待定、规格未知——这是一个观察项,不是依赖项。

所以正确的做法是平淡但正确的:保持视频生成的灵活性,在应用中测试 Omni 以形成自己的判断,不要在有一个你能真正指向的端点之前重新安排你的生产流水线。当 API 出现时,我会用我现在使用的方案来对比测试它,并报告哪些经受住了考验。

待验证。文档上线后续报。

往期文章: