Veo 3.1: OpenAIのSora 2のライバルが登場

Veo 3 は AI ビデオ生成の新しい章を開きました — 動画に音声が付くことが、単なる想像ではなく現実になったのです。 OpenAI の Sora 2 のリリース後、Google は素早く次のステップに進んでいます。 Veo 3.1 は WaveSpeedAI で利用可能になりました — 参照ベースのビデオ生成、スムーズなフレーム補間、高解像度 1080p 出力 を備え、クリエイターがより一貫性のある、** 同期した音声を持つリアルなビデオ**を制作できるようにします。

Veo とは？

Veo は Google の AI ビデオモデルファミリーで、テキストまたは画像を音声付きの短編ビデオに変換します — 音楽、環境音、セリフを含みます。 Veo 3 には 2 つのバージョンがあります： Veo 3（Standard） – 高品質でシネマティックな結果のため。 Veo 3 Fast – より高速な生成とテストに最適化。

Veo 3.1 の新機能

Veo 3 と比較して、3.1 アップデートは基礎モデルのアップグレードを表しています — より高い視覚的リアリズムと文脈対応の同期音声生成を組み合わせています。

これは真の「テキストからシーン」へのフィルムメイキングエンジンに最も近いものです。

より優れたビジュアル・オーディオ融合

Veo 3.1 の新しい基礎モデルにより、ビデオとオーディオの推論がこれまで以上に密接になりました。

プロンプト：シネマティックな一人称視点ビデオ、ハイパーリアル、8k、日本の古い木製ジェットコースターでスリル満点な一人称体験、前列席、完全に遮られない景色。シーンは金色の時間帯の夕焼けに設定され、劇的で温かみのある光を投げかけています。遠くに、雄大な雪をかぶった富士山が見えます……

Veo 3.0 では、ジェットコースターのシーンは滑らかに見えましたが、内部は「無音」でした — 緊張感がそこにはありませんでした。

今、Veo 3.1 はすべての悲鳴、風の音、金属のガタガタ音を動きと完璧に同期させながらキャプチャし、あなたをその乗り物に引き込みます。

被写体参照生成（R2V）：顔とオブジェクトを保持

Veo 3.0 とは異なり、新しい Veo 3.1 では 1～3 個の参照画像をアップロードでき、モデルがすべてのフレーム全体で視覚的一貫性を保つことができます。

顔、動き、環境を整列させ、キャラクターのドリフトや長いクリップ上での不自然なトランジションを排除します。

プロンプト：ひげを生やし、ビーニーと安全眼鏡をかけている男性が、木の壁にドリルで穴を開けています。ドリルビットが壁を貫通したばかりで、反対側に咲く満開の野生花の畑が見えています。男性はドリルを一時停止し、彼の表情が驚嘆と喜びに変わります。彼はドリルを放し、今、腕を広げて立ち、美しい花畑に向かい、まるで彼が発見したばかりの新しい世界を受け入れるかのようです。花畑からの光が彼の顔と壁の端を照らしています。