OmniHuman-1.5:Toward Virtual Humans with “Soul”

デジタルヒューマンが滑らかなアニメーションを見せているビデオを見たことはありますが、本当の感情が欠けていると感じたことはありませんか？この限界を克服するために、ByteDanceが開発したOmniHuman-1.5 を紹介します。これは表面的な模倣を超えた、キャラクターアニメーションを生成するための革新的なフレームワークです。仮想アバターに生命を吹き込むだけでなく、感情を表現する能力も与えます。

模倣から表現へ：技術的ブレークスルー

OmniHuman-1.5は、デュアルシステムシミュレーションフレームワークを採用しています。

まず、この方法は大規模マルチモーダルモデルを活用して、構造化された意味表現を生成し、高度な意味ガイダンスを提供します。これにより、モーション生成がリズム同期を超え、文脈や感情とより良く一致するようになります。

次に、特別に設計されたマルチモーダルDiTアーキテクチャと疑似終了フレームメカニズムを通じて、マルチモーダル情報を効率的に融合させながら競合を軽減し、キャラクター、シーン、言語と深く一貫したアクションを生成します。 OmniHuman-1.5

OmniHuman-1.5は何ができるのか？

🎶ミュージカルパフォーマンス

写真と曲を使うだけで、OmniHuman-1.5はアーティストの一呼吸、呼吸、リズムを正確に模倣する「デジタルシンガー」を作成できます。

🎭感情的な演技

OmniHuman-1.5はデジタルシンガーを作成するだけでなく、感情的なデジタルアクターを生成できます。

🗣️文脈を認識したジェスチャー

反復的なジェスチャーではなく、アニメーションは意味と一致します。例えば、オーディオが「ハート」に言及している場合、キャラクターは自然に彼女の胸に手を置きます。

✍️テキストガイドアニメーション

OmniHuman-1.5はプロンプト制御 をサポートしています。例としては以下が挙げられます：

カメラの動き：「カメラはキャラクターをゆっくり回転させ、アート的な雰囲気を作り出す。」
オブジェクト生成：「アバターはレンズに向かって到達し、その後話し始める。」
特定のアクション：「ペンギンが踊り、サングラスをかけ、舞台で演技する。」

👥マルチキャラクターとスタイル化されたシナリオ

以前のデジタルヒューマンと異なり、OmniHuman-1.5はグループ会話に参加し、アンサンブルの演技ができます。

また、人間、動物、擬人化された人物、スタイル化されたアニメキャラなど、様々なスタイルで機能し、優れた汎用性を示します。

結論：「魂」を持つ仮想ヒューマンへ向けて

仮想ヒューマン技術は新しいブレークスルーを達成しました。OmniHuman-1.5の出現は、仮想ヒューマンが表面的な模倣から深い表現へと進化した新しい時代を示しています。あなたが言うことを理解し、本物の心からのコミュニケーションをあなたと交わすことができます。OmniHuman-1.5モデルの発売を楽しみに待ちましょう！

今すぐWaveSpeedAIにサインアップしてください。また、下記のソーシャルメディアでお気軽にお問い合わせください。

Discord: Discord