Gemini 3.5 Omni 与 Omni Flash：多模态追踪器

一份关于 Google 实际发布了什么、什么仍是演示，以及开发者本周应该怎么做的工作笔记。

我花了一个下午试图弄清楚能否从代码中调用 Gemini 3.5 Omni。结论是不能，至少现在还不行。Gemini 应用向我展示了 Omni Flash 从一张照片和一行提示词生成视频的过程，效果不错——但我真正需要的东西，一个可以接入流水线的 API 端点，还不存在。这个落差就是整个故事的核心。本文记录了截至 2026 年 6 月初 Omni 的真实现状，以及对于在生产环境中运行视频生成的人来说，什么变了，什么没变。

如果你时间紧，简短版本是：Omni 是一个真正的视频生成模型，面向消费者已上线，开发者 API 访问仍处于”未来数周内”的状态。现在不要在它上面构建。以下是详细内容。

Google 所说的”Gemini Omni”是什么

定位：用于视频、图像和模拟生成的多模态世界模型

Google 自己的表述是 Gemini Omni 能从任意输入创建任何内容，从视频开始。关键词在于从……开始。目前 Omni 公开只做一件事：接收文本、图像、音频和已有视频片段，然后输出视频。

使它不只是文本转视频工具的原因在于，它是在对这些输入进行跨模态推理，而不是简单地将它们拼接在一起。Google 也在物理性上下了很大功夫——TechCrunch 对 I/O 发布会的报道指出，输出结果旨在体现对运动、重力和流体行为的理解。在演示中，这意味着更少的肢体变形和背景融化。等我把四十个片段都跑一遍之后，再来评价一致性的说法，而不是凭九个演示。

Omni 与 Gemini 3.5 Flash / Pro 的区别（输出模态）

这是大多数报道搞混的部分，我直说吧。Omni 和 3.5 系列不是同一类模型。

模型	输入	输出	用途
Gemini Omni / Omni Flash	文本、图像、音频、视频	视频	生成和编辑视频片段
Gemini 3.5 Flash	文本、图像、音频、视频	文本、代码	智能体任务、推理、UI 生成
Gemini 3.5 Pro	文本、图像、音频、视频	文本、代码	相同，但能力上限更高（仍在推出中）

3.5 Flash 是输入多模态——它理解你的视频并给出文字回答。Omni 是输出多模态——它理解你的输入并返回一段视频。Google 的博客说得很直白：Gemini Omni 是我们能从任意输入创建任何内容的新模型，从视频开始；而 3.5 系列是将前沿智能与行动能力结合用于智能体工作的系列。如果你一直把”Gemini 3.5 能做视频”视为一项能力，现在请把它拆成两个。它们存在于你架构的不同层次。

Omni Flash 定位与完整 Omni 的对比

Omni Flash 是实际发布的版本。它是更快、更便宜的档位，据报道其片段长度约在 10 秒上限——这被描述为部署选择而非模型硬性限制，暗示之后可能会延长。一个更高保真度、更长片段的 Omni 档位在其之上，但那个主要还活在演示视频里。所以当有人说”Omni 发布了”，他们指的是消费者应用中的 Omni Flash。

I/O 2026 确认的内容

面向公众的公告与开发者访问时间线

I/O 于 2026 年 5 月 19-20 日举行。Google 确认了 Omni、3.5 系列以及一批智能体功能。关键区别：消费者访问已发布，开发者访问还没有。Gemini Omni Flash 正在通过 Gemini 应用和 Google Flow 向全球所有 Google AI Plus、Pro 和 Ultra 订阅者推出，YouTube Shorts 上也提供免费访问。然后是每个开发者都应该划重点的那句话：在未来数周内，我们也将通过 API 向开发者和企业客户推出。

“未来数周”。没有日期，没有模型 ID，没有定价表。

Omni 的演示场景和展示内容

演示是对话式视频编辑——修改一个元素、改变整个场景、在多轮对话中保持角色一致性。一个例子：输入一段小提琴手的片段，然后发出编辑指令，如”把小提琴手带到新的环境”和”让小提琴消失”，每次都在上一次的基础上构建。这是一种以编辑为核心的定位，与纯文本转视频是截然不同的赌注。Google 还确认每个 Omni 输出都带有 SynthID 水印，如果你的下游用途有溯源要求，这一点很重要。

演示与开发者可用性之间的落差

这里我停顿了一下。面向消费者的推出和 API 是两个不同的产品，有着两种不同的可靠性保证。这不是悲观，只是”我看到它在应用里工作”和”我可以在凌晨 3 点批处理任务触发时依赖它”之间的区别。

为什么这对多模态开发者至关重要

视频生成是独立于多模态理解的问题

如果你的产品已经在调用 Gemini 3.5 来理解上传的媒体，Omni 不能替代它。这是一个额外的能力——生成——你会将其附加进去，而不是直接替换。在架构图中把它们当作一行来处理，是让你措手不及的根源。

Omni 在现有视频模型（Veo 等）中的定位

这是实际问题。Google 已经通过有文档的 Gemini API 和 Vertex AI 路径提供 Veo 3.1，所以今天 Veo 是你实际上能集成的 Google 视频模型。Omni 在 API 层还不是 Veo 的替代品——没有迁移文档说所有 Veo 路由都切换到 Omni，Veo 的页面仍然是活跃的。不过意图上的差异是真实的：Veo 围绕文本转视频构建，而 Omni 的核心是多输入推理和对话式编辑。对于开发者来说，这意味着 Omni 的定位是将一条链路——转录、图像理解、生成——压缩成一次调用。这是否值得围绕它重建，完全取决于它是否真的发布 API。

如果 Omni 实现开发者访问，会有什么变化

如果——当——API 上线，吸引力不在于直接省钱，而在于减少接口。一个接收混合媒体并返回编辑后视频的模型，意味着更少需要维护的 SDK、更少需要处理的错误分类、更少需要跟踪的 SLA。这才是我真正在乎的那种摩擦减少。但”如果它发布”这几个字在这句话里承担了很多重量。

目前尚不清楚的内容

我特别标记这些，因为把它们当作已成定局来写，是团队踩坑的方式。

API 可用性和时间线 — 需要验证。 “未来数周”是唯一的官方信号。截至 2026 年 6 月初，Google 开发者文档中没有端点，也没有模型 ID。
视频工作负载的定价 — 未知。消费者访问被打包在 Google AI 订阅档位（Plus、Pro、Ultra）中，但按次调用的 API 定价尚未公布。视频帧会快速推高 token 数量，不要假设与文本模型相同的经济性。
输出规格 — Omni Flash 片段似乎上限在 10 秒左右；API 档位的完整分辨率、最大长度和精确控制输入没有文档记录。
商业使用权限 — 开发者使用的条款尚未明确。SynthID 水印已确认；通过 API 生成输出的许可条款尚未公布。

如果某个供应商或博客告诉你 Omni API”对所有人开放”，他们已经超越了现有证据。我查过了。

今天如何围绕 Omni 制定计划

不要基于演示迁移生产工作负载

这很显然，但值得说，因为这些演示确实令人印象深刻，而这正是团队犯错误的时机。演示是受控条件下的最佳情况。生产环境是 2 倍流量下的最坏情况。在有具备文档化延迟和限制的端点之前，Omni 留在你的”关注中”列，而不是”依赖”列。

在多个视频生成模型上测试备用路径

我对同一个生成任务跑多个模型，正是为了让这样的发布不会让我陷入困境。如果 Omni 的 API 下个月上线，很好——我希望能把它接进来与我现有的方案对比，而不是为了发现它在我的特定场景下表现更差而重建整个流水线。每次模型发布的教训是：别人演示里的”真的很好”毫无意义，直到它在你的工作流中以你的频率表现良好。

以模型聚合对冲供应商特定的发布节奏

这部分与我的工作方式直接相关。当一个模型先向消费者发布、开发者”未来数周内”再跟进时，不会手忙脚乱的开发者，是那些从来没有把自己绑定在某个供应商发布日历上的人。通过像 WaveSpeedAI 这样的统一多模型访问层运行视频生成，意味着新模型是你在它准备好时测试和采用的东西，而不是你被迫进行的迁移。我并不是说这对所有人都正确——如果你只用一个模型，这层抽象就是额外开销。但以我的切换频率，一个访问层覆盖多个模型，胜过为每个供应商维护一套集成。价值不在于”更多模型”，而在于不必每次格局改变时都重建。而这个月，格局改变了。

常见问题

今天能通过 API 使用 Gemini Omni 吗？ 不能。截至 2026 年 6 月初，Omni Flash 在 Gemini 应用、Google Flow 以及面向 AI Plus/Pro/Ultra 订阅者的 YouTube Shorts 中上线。Google 表示开发者和企业 API 访问”未来数周”内推出，但目前没有已公布的模型 ID、端点或定价。

Gemini Omni 和 Gemini 3.5 Pro 有什么区别？ 输出模态不同。Omni 生成视频（输出多模态）。Gemini 3.5 Pro 理解文本、图像、音频和视频，但输出文本和代码（输入多模态）。不同的工作，存在于你架构的不同层次。

Gemini Omni 能生成视频吗？ 是的——这是它的核心功能。它以文本、图像、音频和视频片段为输入，生成视频，并支持多轮对话式编辑。所有输出都带有 SynthID 水印。

开发者何时可以访问 Omni？ 未确认。Google 唯一的公开措辞是”未来数周内”。在 Google 发布 API 文档之前，你在其他地方看到的任何具体日期都视为推测。

Omni 与 Veo 等其他视频生成模型相比如何？ Veo 3.1 是今天你实际上可以通过 Gemini API 和 Vertex AI 调用的模型。Omni 的特点是多输入推理和以编辑为核心的设计，而非纯文本转视频。但在 Omni 的 API 发布之前，Veo 仍是生产视频生成的实际 Google 基准。

结论

我的结论是：Omni 是真实存在的，编辑优先的方式是一个不同且有趣的赌注，Gemini 3.5 Omni 值得密切关注。但这周不值得在它上面构建。消费者端已上线、开发者端待定、规格未知——这是一个观察项，不是依赖项。

所以正确的做法是平淡但正确的：保持视频生成的灵活性，在应用中测试 Omni 以形成自己的判断，不要在有一个你能真正指向的端点之前重新安排你的生产流水线。当 API 出现时，我会用我现在使用的方案来对比测试它，并报告哪些经受住了考验。

待验证。文档上线后续报。

往期文章：