← ブログ

Gemini Omniデモがリーク — GoogleのNew動画モデルが実際にできること

UIストリングの最初のリークから8日後、Gemini Omniの最初のサンプル動画が浮上しました。チャット主導の編集に強みを持ちますが、純粋な映像品質ではSeedance 2.0に劣り、1クリップあたりAI Proの1日の使用枠の約43%を消費します。I/O 2026の1週間前、正直な評価をお届けします。

1 min read

5月3日の最初のOmniリークについて書いた際、全体のストーリーはUIの文字列一つだけだった。8日後、状況はかなり明確になってきた。GeminiモバイルアプリがモデルによってH成された実際のサンプル動画を表示し、内部モデルID(bard_eac_video_generation_omni)がリークされ、AIビデオプロダクトを構築する人々にとって重要な指標——忠実度、編集、コスト——に関する十分な実地評価が公開され、初期的な見解を出せるようになった。

簡潔にまとめると:Omniは実在し、Veo 3.1のリネームではなく新しいモデルである可能性が高く、リーダーボードのトップとは異なる強みと弱みを持っている。Google I/O 2026(5月19〜20日)の7日前となった現在、判明していることを整理する。

今週明らかになったこと

2026年5月11日、TestingCatalogとXユーザー@Thomas16937378が、GeminiモバイルアプリのビデオH成フローから新しいサンプルを取得した。モデルカードのテキストは、プレースホルダー(「Powered by Omni」)から完全な製品説明へと更新された:

Create with Gemini Omni:新しいビデオモデルをご紹介します。動画をリミックスし、チャットで直接編集し、テンプレートを試すことができます。

具体的な詳細が3つ明らかになった:

  • 内部モデルIDbard_eac_video_generation_omni。「Bard EAC」はGeminiアプリの実験的機能の内部名前空間で、_omniサフィックスはこれがVeoのバリアントではなく独立したモデルとして扱われていることを示している。
  • 現行プレビュー段階では生H成クリップに10秒の上限が設けられている。Veo 3.1はネイティブで8秒、拡張機能を使うと16秒が上限だが、Omniは現在その中間に位置し、拡張機能のパスはまだ確認されていない。
  • Gemini設定に新しい使用制限タブが追加されており、月額サブスクリプションクォータではなくクレジット制の展開であることを示している。これはGoogleがDeep ResearchやNotebook Plusなどコストの高いエージェント機能をリリースする際の方式と一致している。

これは証拠の質として大きな改善だ。5月3日のリークはUIテキストのみだった。今回はUIテキスト+動作するエンドポイント+観測可能な出力+課金インターフェースが揃っている。

確認された2本のサンプル動画

どちらのサンプルもGeminiアプリから取得され、モデルを起動できたAI Proアクセス権を持つユーザーによるもので、その後推定されるロールバックが行われた。どのモデル系譜にOmniが属するかを示しているため、詳しく説明する価値がある。

サンプル1——「教授が黒板に三角関数の恒等式の数学的証明を書いている」 レビュアーはテキストのレンダリングが「驚くほどうまく」処理されていると述べた——チョークで書かれた方程式は読みやすく、以前のビデオモデルが生H成した記号の羅列ではなく、数学的にもっともらしく見えた。手と腕の動きも自然だった。chromeunboxedのレポートでは「最終的な出力に明らかなAIの痕跡がある」と指摘されていたが、具体的には言及されていない——おそらく不自然な微細な眼球運動、手のメッシュのアーティファクト、チョークの形状が少しずれることの組み合わせだろう。

サンプル2——「高級レストランでパスタを食べる2人の男性」 「かなりリアル」と評された。パスタを巻くテストは1年間非公式なベンチマークとなっている——潜在空間ビデオで問題となるすべての要素、つまり道具と食べ物の接触、流体に似た動き、遮蔽を通じた一貫した顔の同一性を試すからだ。Omniはコメントに値するほどうまく処理したが、今年「合格」の基準が上がったという注記もあった——Seedance 2.0とWan 2.7はどちらもそのバーを確実にクリアしている。

2本のサンプルはベンチマークではない。しかし、異なる難易度レベル(フレーム内のテキストと接触物理)の2つのサンプルで、どちらのレビュアーも「優れているが完璧ではない」という結果を報告していることから、OmniをVeo 3.1と同じ水準に位置づけるには十分だ——生の忠実度でVeo 3.1を上回っておらず、Seedance 2.0を明らかに下回っている。

Omniが実際にリードする点:チャット駆動の編集

今週の実地評価で興味深い結果は、Omniの際立った機能が生H成品質ではないということだ。それは編集だ。具体的には:

  • 自然言語チャット指示による入力クリップからの透かし除去
  • シーン内のオブジェクト置換(「赤い車を青い車に変える」)
  • 会話形式でのターンテイキングによるシーンの書き直し——何を変えるべきかを説明すると、モデルが編集版を返し、繰り返し修正できる

これはSeedance 2.0 Video-EditやWan 2.7 Editが現在提供しているものとは大きく異なる領域だ。これらのモデルはコマンド形式の指示編集(「イヤホンを外す」「女性のコートを赤にする」)に優れているが、単一のソースクリップに対してマルチターンの編集会話を維持できない。現在最も近いアナログは、Kling Omni Video O1の自然言語編集フローで、リリース時に詳しく書いた

OmniがチャットファーストのビデオエディターとしてH出される場合——単なる別のテキスト-ビデオエンドポイントではなく——それがユニークな価値提案になる。GoogleにはLLMスタックがあり、ほとんどの純粋なビデオモデルベンダーが持っていない方法でマルチターン修正をネイティブに機能させることができる。

コストの話

最も注目すべきデータポイント:あるテスターが2つのビデオプロンプトで1日のAI Proクォータの86%を消費したと報告した。これはProの1日あたり約43%がクリップ1本分——フロンティアビデオモデルに相当するコストプロファイルで、Flash層の画像H成とは大きく異なる。

いくつかの示唆:

  1. GeminiアプリH在のプレビューモデルはほぼ間違いなくPro/フル層であり、Flashではない。TestingCatalogはFlashバリアントが同時にリリースされると推測しているが、確認されているサンプルはそのものではない。
  2. このレートでのクリップあたりのクレジット消費は、小売換算で10秒クリップあたり約0.30〜0.50ドルに相当し、Veo 3.1(プレビュー価格で0.50ドル/秒)と競争力があるが、Seedance 2.0 Fastよりは高い。
  3. GoogleはI/Oの発表で明示的な使用階層をほぼ確実に導入するだろう——新しい使用制限タブがその予兆だ。カジュアルユーザー向けのFlashコスト層と、ビルダー向けのAI Studioでの従量制層を期待する。

Omniの正体についての現時点での見解

3週間前には3つのもっともらしい解釈があった:Veoのリブランド、独立したGeminiビデオモデル、または完全なオムニモーダルモデル。5月11日の証拠がそれを絞り込んだ:

  • 独立したモデルID_veoではなく_omniサフィックス)は、単純なVeoのリブランドを除外する。GoogleはプレビューロールアウトH に既存のモデルエンドポイントを通常リネームしない。
  • 編集ファーストの製品フレーミング——「リミックス、チャットで直接編集」——は、テキスト-ビデオ+拡張として常に売り込まれてきたVeoでGoogleが使ってきた言葉ではない。これは異なるトレーニング目標を持つ独立したモデルのように読める。
  • リークされたサンプルには画像出力の証拠がない。もしこれが名前が示す統一オムニモーダルモデルなら、同じエンドポイントから画像H成が出てくることが期待される。しかし、これまでのすべてのリークはビデオのみだった。

現時点での最も可能性の高い解釈:OmniはVeoと並存する新しいGeminiトレーニングのビデオモデルで、Veoを置き換えるものではなく、編集ファーストの製品ポジショニングを持つ。 Nano BananaはGoogleが同じモダリティ内でブランドを分離することをいとわないことを示している(テキスト-画像はNano BananaとGemini 3 Flash Imageの両方の名前で実行されている)。OmniとVeoの共存はそのパターンと並行している。

名前が示す完全統一オムニモーダルの夢は、おそらく将来の世代のものだろう。来週リリースされるとすれば——リリースされるとすれば——Google独自のLLMネイティブなチャットインターフェースを組み合わせた競争力のあるビデオエディターだ。

評価における影響

AIビデオに関連する何かを構築している場合、今後2週間で3つのことが変わる:

  1. 評価スイートに編集ベンチマークを追加する。 ほとんどのビデオモデル評価はテキスト-ビデオのみだ。OmniのピッチがチャHト駆動の編集なら、比較は生H成忠実度だけではいけない——マルチターンの一貫性、編集を通じたオブジェクト同一性の保持、2回目と3回目のターンでの指示への遵守をテストする「このクリップを編集する」プロンプトのバッテリーが必要だ。
  2. Seedance 2.0 / Wan 2.7 / Omniのトライアングルを作業セットとして扱う。 Sora 2とVeo 3.1は今やこのトライアングルに対する前世代の参照として理解するのが最善だ。3つのそれぞれに明確な強みがある:Seedanceは忠実度でリード、Wanはマルチモーダル参照入力でリード、Omni(暫定的に)はチャット編集でリード。
  3. Proレベルの価格を予算に入れる。 1日クォータの43%というデータポイントは今週最も強力なシグナルだ。ワークフローでクリップを大規模に生H成する場合、Proレベルよりもflashレベルのリリースの方が重要になる。その発表を特に注目すること。

今後1週間

Google I/Oは2026年5月19日に開幕する。GeminiとDeepMindの発表は伝統的に火曜日の基調講演スロットに行われる。これほど制御された、これほど完全な——モデルカードテキスト、サンプル動画、課金インターフェース、すべてが1週間に揃った——事前リークは、内部レビューをすでに通過してカレンダーを待つだけのローンチと一致している。

当日に注目すべき4つのこと:

  1. Flashレベルはあるか、そのコストは?
  2. 編集のピッチは本物か、それとも1サンプルのノイズだったか?具体的には、Googleがステージ上でマルチターン編集をライブで見せるか?
  3. APIのパスは何か? AI Studio?Vertex?両方?
  4. 音声同期:リークされたサンプルのいずれも、OmniがVeo 3.1のように同期音声を生H成するかどうかに言及していない。そうでない場合、それは本物のギャップだ。

WaveSpeedAIで現在の代替手段を試す

Omniがリリースされるまで、2026年のビデオH成分野の他のモデルはWaveSpeedAIで1つのAPIから利用できる:

  • Seedance 2.0 — 生の忠実度での現在のSOTA、低レイテンシ向けのFastバリアントあり
  • Wan 2.7 — Alibabaのリファレンスリッチなビデオモデル
  • Kling V3.0 Pro — Kuaishouの高忠実度オプション
  • Kling Omni Video O1 Edit — 自然言語ビデオ編集、Omniが売り込まれているものに最も近い現在のアナログ
  • Sora 2 — OpenAIのオファリング
  • Veo 3.1 — 現在のGoogleビデオモデル

Gemini Omniが公開されたら、同じAPIで数日以内に比較できることを期待してほしい。

Sources: TestingCatalog, 9to5Google, Chrome Unboxed, OfficeChai.