WaveSpeedAIにCharacter AI Ovi Image-to-Videoが登場

Character AI Ovi Image-to-Video on WaveSpeedAIでのご紹介

AI動画生成の世界は新しい時代へと突入しました。WaveSpeedAIでCharacter AI Ovi Image-to-Video が利用可能になったことを、喜びを持ってお知らせします。このアプローチ的なモデルは、静止画像を動的なオーディオビジュアル体験に変換し、同期されたビデオとオーディオを1つの生成ステップで作成します。

Oviは、AI駆動のコンテンツ制作における大きな飛躍を表しています。従来のビデオ生成モデルは音声なしのクリップを生成し、別途オーディオ処理が必要ですが、Oviはビデオとオーディオを同時に生成し、プロフェッショナルな制作品質に匹敵する没入型コンテンツを作成します。

Oviとは？

OviはCharacter AIが開発したVeo-3のような画像-オーディオ-ビデオ（I2AV）生成モデルです。研究論文「Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation」に基づいており、この110億パラメータモデル（ビジュアル5B + オーディオ5B + フュージョン1B）は、シームレスなオーディオビジュアル合成のために2つの一致した潜在拡散トランスフォーマーを結合する革命的なツインバックボーンアーキテクチャを使用しています。

このモデルはビデオバックボーンに関してWan 2.2からインスピレーションを得ており、オーディオエンコーディングとデコーディングはMMaudioから着想を得ており、先にサイレントビデオを生成してから後で音を追加するという面倒なワークフローを排除した統一されたシステムを作成しています。対話、効果音、環境音、音楽など、どのようなオーディオが必要であっても、Oviは1回のパスですべてを処理します。

Oviが他と異なる点は、その同期アプローチです。このモデルは明示的な顔のバウンディングボックスを必要とするのではなく、データから純粋にリップシンクを学習し、自然な口の動きを実現し、複雑な後処理なしに現実的なマルチパーソン会話を可能にします。

主な機能

同時ビデオ+オーディオ生成：1つの生成ステップで同期されたオーディオビジュアルコンテンツを作成。個別のオーディオパイプラインは不要です
画像からビデオへの変換：任意の静止画像をシネマティックなモーション、対話、文脈に合った音で生き生きさせます
自然音声合成：正確なリップシンクと本物のスピーカーアイデンティティを備えた感情的に豊かな対話を生成します
柔軟なオーディオコントロール：プロンプト内で特殊タグを使用して、音声（<S>...<E>）と環境音（<AUDCAP>...<ENDAUDCAP>）を直接指定します
5秒間の高品質クリップ：24 FPSで出力でき、複数のアスペクト比（9:16、16:9、1:1）に対応しています
マルチスピーカーサポート：複数の音声とマルチターン会話を自然に処理します
100％オープンソース：Apache ライセンスで、探索、修正、統合の自由度があります

ベンチマーク評価では、Oviはオーディオ品質、ビデオ品質、オーディオビデオ同期メトリクスの全体において競合モデルよりも明確な好みを示し、オープンソースの機能をVeo 3のようなフロンティアモデルに大幅に近づけました。

実世界のユースケース

短形式コンテンツ制作 製品写真、キャラクターイラスト、またはシーンコンセプトを、ソーシャルメディア向けの魅力的なビデオクリップに変換します。Oviが文脈に合った音（雨音から笑い声まで）を追加する能力は、TikTok、Instagram Reels、YouTube Shortsに最適な感情的な深さを生み出します。

キャラクターアニメーション デジタルキャラクター、アバター、仮想パーソナリティに命を吹き込みます。このモデルは表現力豊かなパフォーマンス、自然なヘッドムーブメント、本物の顔の表現を備えた人間中心のコンテンツに優れています。

マーケティングと広告 静止製品画像またはコンセプトアートから、目を引く販促ビデオを作成します。個別の制作ステップなしで、ボイスオーバー、効果音、環境音を追加します。

ストーリーテリングとナラティブ 映画のプリビジュアライゼーション、コミック改作、またはインディーズの創作プロジェクト向けに、ストーリーボードとイラストを生き生きさせます。各フレームが対話と雰囲気を備えたミニシーンになります。

教育コンテンツ 図解、イラスト、静止教育資料を、ナレーションと支援オーディオを伴った動的な説明ビデオに変換します。

ゲーム開発 コンセプトアートまたはゲーム内スクリーンショットから、直接カットシーン、トレーラー、販促コンテンツを生成します。

WaveSpeedAIで始める

WaveSpeedAIでOvi Image-to-Videoを使用するのは簡単です：

画像をアップロードする：ビデオの基本フレームとして機能する参照画像を提供します
プロンプトを作成する：目的のモーション、スタイル、雰囲気を説明します。<S>ここにあなたの対話<E>タグを使用して音声を含め、<AUDCAP>音の説明<ENDAUDCAP>タグを使用して効果音を含めます
シードを設定する：ランダム生成に-1を使用するか、再現可能な結果のために固定番号を使用します
生成する：実行をクリックして、5秒間のオーディオビジュアルクリップを作成します

プロンプトの例を次に示します：

A wide shot of a medieval knight standing in the rain, sword planted 
into the ground, glowing with mystical energy.  
<S>I will defend this land until my last breath.<E>  
<AUDCAP>Thunder rolls across the dark sky, distant war drums echo.<ENDAUDCAP>

わずか5秒間のビデオあたり$0.15 で、OviはVeo 3の8秒間あたり$3.20に比べて例外的な価値を提供します。