Gemini Omni Flash リリース:10秒マルチモーダル動画、SynthIDウォーターマーク対応、音声編集は見送り
GoogleはI/O 2026でGemini Omni Flashを発表しました。テキスト・画像・音声・動画を横断して推論し、音声同期された一貫した動画出力を生成するシングルモデルです。リリースされた機能、見送られた機能、そしてVeoとの違いを詳しく解説します。
5月3日のUIストリングリークと5月11日のデモリークが、いずれもそれを示唆していた。2026年5月19日をもって、Gemini Omni Flashが正式公開された — GoogleのOmniフレームワークにおける最初の公開モデルであり、同日よりGeminiアプリ、Google Flow、YouTube Shortsで一般提供が開始されている。単一のマルチモーダルプロンプトから同期オーディオ付きの10秒動画クリップを生成し、チャットを通じてそのクリップを編集できる。重要な点として、生成された動画内の音声やオーディオの編集はできない — この機能は意図的に留保されている。
以下では、実際に何がリリースされたか、リリース前のリークが見逃した点、そしてOmni FlashがVeo、Sora 2、Seedance 2.0に対してプロダクション判断においてどのように位置づけられるかを解説する。
リリースされた内容
| 詳細 | 確認済み |
|---|---|
| モデル名 | Gemini Omni Flash |
| 生成長 | 10秒(同期オーディオ付き) |
| 入力 | テキスト + 画像 + オーディオ + 動画(任意の組み合わせ) |
| 出力 | 一貫性のある動画 — 入力を推論処理、継ぎ接ぎなし |
| 編集 | 会話型チャット(「照明を変えて」「犬を猫に差し替えて」) |
| 透かし | 全出力にSynthIDを埋め込み |
| 配信(一般ユーザー) | Geminiアプリ、YouTube Shorts、YouTube Create、Flow |
| 配信(有料サブスクライバー) | Gemini AI Plus(月額$7.99)、Pro、Ultra |
| 配信(開発者API) | 「数週間以内」 |
| 上位モデル | Omni Proを予定、リリース日未定 |
10秒上限は最も興味深いプロダクション判断だ。Google側のステージ上での説明:「モデルの制限ではなく、より多くのユーザーに届けたいという思いと、ほとんどのユーザーがまだそれほど長い動画を作りたいとは思っていないという予測に基づく判断です。」 これはVeo 3.1の8秒上限よりも慎重なロールアウト姿勢であり、Veo 3.1の上限はアーキテクチャ上の制約だった。Omni Flashはポリシーを緩和した瞬間に、より長い動画を生成できると考えられる。
リリース前の報道で正確だった点と誤っていた点
正確だった点:
- OmniはVeoのリブランドではなく新モデルである。アーキテクチャとプロダクト表面は明確に異なる。
- 編集優先のプロダクトポジショニング。会話型シーン書き換えがデモの中心だった。
- Flash + Proのティア分割が来ることは予測通り。
- オーディオ同期は本物であり、初日からリリースされた。
誤っていた点:
- 5月11日のリークにあった「生の忠実度でSeedance 2.0に劣る」という表現は、Googleがステージで見せた内容では裏付けられていない。公開されたデモ(タンパク質折り畳みのクレイアニメーション解説、物理的に正確な効果音付きのビー玉バウンス)は、接触物理、素材感、ナレーション、多段階ナラティブを強調するために特別に選ばれたもの — Seedanceが明確な弱点を持つカテゴリーだ。独立したベンチマークなしにOmniが優れているとは言えないが、「劣る」という表現は時期尚早だった。
- 5月11日のリークにあった「1日クォータの43%のコスト」というデータポイント。初日の価格設定はサブスクリプション制(月額$7.99からの開始ティア)に加え、YouTube ShortsとYouTube Createを通じた無料アクセスとなっている。クリップごとのコスト話は、配信ボリュームの話に置き換えられた。
OmniFlashがVeoと異なる4つの点
プロダクション判断において最も重要な問いであり、明確な答えがある。
1. 入力
Veo 3.1:テキスト → 動画。画像 → 動画。それだけ。
Omni Flash:テキスト + 画像 + オーディオ + 動画を1つのプロンプトで、モデルが連結するのではなく推論処理する。キャラクターの参照画像、セリフのオーディオファイル、望むライティングの動画を渡すと、3つの制約すべてを解決した1つの出力が得られる。
2. 編集
Veo 3.1:テキストプロンプトによる再生成。各編集は修正されたプロンプトによる新たな生成。
Omni Flash:チャットベースの段階的編集。「照明を暖かくして」 — すると次のレスポンスが他の要素を保持しながら既存クリップを編集する。LLMネイティブなアーキテクチャが活きる部分だ。
3. オーディオ
Veo 3.1:動画と同期したオーディオ。
Omni Flash:同期オーディオさらに入力オーディオを生成制約として使用する機能。ただし — これは重要だが — 生成された動画のオーディオと音声の編集は留保されている。Googleは安全上の理由からモデルを「ナレーション編集なし」モードでリリースしている。その理由が選挙年におけるディープフェイクのリスクへの配慮であることは明らかだ。ポリシーと検出スタックが安定すれば、この制約は緩和されると予想される。
4. 配信
Veo 3.1:Vertex API、AI Studio、プレミアム価格のVeoアプリ。
Omni Flash:今週からYouTube ShortsとYouTube Createを通じた無料アクセス。有料アクセスはGoogle AI Plusの月額$7.99から開始。これはまったく異なるgo-to-market戦略だ — GoogleはYouTubeの配信力を使い、追加コストなしで何億ものユーザーの前にOmniを届けている。
SynthID + オーディオ留保の組み合わせが示すもの
GoogleはOmni Flashを開発者製品より先にコンシューマー製品として扱っている。そのことを明確にする2つのポリシー選択:
- SynthIDは必須。 すべての出力に、GeminiアプリやChrome、Searchで検証可能な知覚不能な透かしが入る。これをオフにするAPIのスイッチはない。クリーンな出力が必要な商用ユースケースでは、開発者APIがリリースされるまで適切なレイヤーではない。
- オーディオ/音声編集は留保。 これはアーキテクチャがサポートする最もリスクの高い機能 — 既存動画の音声を修正する能力だ。留保することは、Googleが規制上・評判上のリスクをどこに読んでいるかを示している。まだリリースされていない機能を前提にしたプロダクションワークフローは組まないこと。
「Omni Pro」の発表もこれを裏付けている。GoogleはProが届く時期を「Flashを超えるステップチェンジが見られたとき」と明言した — 「近いうちにリリース日をお伝えします」ではない。この表現は、ポリシーレビューを待つモデルではなく、トレーニングが完了していないモデルと一致している。
ビルダーが今日取るべき行動
3つの具体的な読み方:
- コンシューマー向けクリエイティブツールについては、Omni FlashがGoogleの配信面での新たなデフォルトとなる。 エンドユーザー向けの動画作成アプリを持っているなら、特にこれに対してテストが必要だ。
- 開発者パイプラインについては、待機。 APIは「数週間以内」— つまり2週間でも8週間でもあり得る。APIアクセスとOmni Proのリリースタイムラインなしでは、プロダクショングレードの動画モデル分野は実質的にまだ動いていない。Veo 3.1、Seedance 2.0、Sora 2が引き続きプロダクション選択肢だ。
- 評価については、今からプロンプトを用意しておく。 3つのテストカテゴリーを選ぶ:接触物理(ビー玉デモ)、ナレーション(クレイアニメーションデモ)、会話型編集での品質維持(多ターン編集セッションの3ターン目)。Omni FlashがAPIキーで利用可能になる前にベースラインを持てるよう、現在のプロダクションモデルで実行しておく。
注目すべきシグナル
今後2〜4週間の4つのシグナル:
- 開発者APIのローンチ。 価格設定、レート制限、Vertex AIの表面がAI Studioと一致するか。難しい問い:APIコールにSynthIDが埋め込まれるか、商用アカウントでそれを切り替えられるか。
- より長い動画時間。 10秒上限はポリシー判断だ。誰かが30秒クリップを生成した瞬間、その緩和はGoogleが安全パイプラインへの確信を持ったシグナルとなる。
- オーディオ編集の復活。 これがリリースされたとき、ディープフェイクリスクモデルが内部レビューをクリアした瞬間だ。モデル自体よりも興味深い機能の話がここにある。
- Omni Proの実際のベンチマークプロファイル。 「Flashを超えるステップチェンジ」という表現は、AnthropicがOpus前に使ったのと同じ言い回しだ — つまり段階的リリースではなく意味のある能力ジャンプを期待すべきだ。システムカードに注目。
開発者APIがリリースされOmni Flashが動画生成フロンティアの他のモデルと並んでアクセス可能になれば、Veo 3.1、Seedance、Sora 2、Kling Omni Video O1と同じ軸で比較することになるだろう。WaveSpeedAIの現在のGoogleモデルラインナップ — Veo 3.1、Veo 3 Fast、Gemini 3 Pro Imageなど — は今日同じAPIで利用可能だ。
ソース:TechCrunch on Gemini Omni、The Tech Portal I/O roundup、Technobezz on Omni Flash、TechTimes on the audio holdback、9to5Google I/O 2026 news。
