← Blog

OmniHuman-1.5:Toward Virtual Humans with “Soul”

Have you ever watched videos featuring smoothly animated digital humans, but felt they lacked genuine emotion? To overcome this limitation, we introduce OmniHuman-1.5, developed by ByteDance—a groundbreaking framework designed to generate character animations that transcend superficial mimicry. It not only brings virtual avatars to life but also endows them with the ability to express emotions.

3 min read

Você já assistiu a vídeos com humanos digitais animados suavemente, mas sentiu que lhes faltava genuína emoção? Para superar essa limitação, apresentamos o OmniHuman-1.5, desenvolvido pela ByteDance—um framework inovador projetado para gerar animações de personagens que transcendem a mera imitação superficial. Ele não apenas dá vida a avatares virtuais, mas também os capacita com a habilidade de expressar emoções.

Da Imitação à Expressão: Um Avanço Técnico

O OmniHuman-1.5 emprega um framework de simulação de sistema duplo.

Primeiro, este método aproveita modelos de linguagem multimodais para gerar representações semânticas estruturadas, fornecendo orientação semântica avançada que permite que a geração de movimento transcenda a mera sincronização de ritmo e se alinhe melhor com o contexto e a emoção.

Segundo, através de uma arquitetura DiT multimodal especialmente projetada e um mecanismo pseudo-frame-final, ele funde eficientemente informações multimodais enquanto mitiga conflitos, gerando assim ações profundamente consistentes com personagens, cenas e linguagem. OmniHuman-1.5

O Que o OmniHuman-1.5 Pode Fazer?

🎶Apresentações Musicais

Usando apenas uma foto e uma música, o OmniHuman-1.5 pode criar um “cantor digital” que imita precisamente as pausas, respirações e ritmo do artista.

🎭Atuação Emocional

O OmniHuman-1.5 não apenas pode criar cantores digitais, mas também produzir atores digitais emocionais.

🗣️Gestos Sensíveis ao Contexto

Em vez de gestos repetitivos, as animações se alinham com o significado. Por exemplo, quando o áudio menciona “coração”, o personagem coloca naturalmente a mão no peito.

✍️Animação Guiada por Texto

O OmniHuman-1.5 suporta controle por prompt. Os exemplos incluem:

  1. movimentos de câmera: “A câmera circula lentamente o personagem para um clima artístico.”
  2. geração de objetos: “O avatar se estende em direção à lente, depois começa a falar.”
  3. ações específicas: “Um pinguim dança, usa óculos de sol e se apresenta no palco.”

👥Cenários Multi-Personagem e Estilizados

Diferentemente dos humanos digitais anteriores, o OmniHuman-1.5 pode se envolver em conversas em grupo e realizar atos em conjunto.

Ele também funciona com humanos, animais, figuras antropomórficas e desenhos animados estilizados, demonstrando uma versatilidade notável.

Conclusão: Em Direção a Humanos Virtuais com “Alma”

A tecnologia de humanos virtuais alcançou um novo avanço. O surgimento do OmniHuman-1.5 marca uma nova era onde humanos virtuais evoluíram de imitação superficial para expressão profunda. Ele pode entender o que você diz e se envolver em comunicação genuína e sincera com você. Vamos aguardar com entusiasmo o lançamento do modelo OmniHuman-1.5!

Registre-se agora em WaveSpeedAI. Além disso, você pode se conectar conosco nas redes sociais abaixo.

Discord: Discord

Compartilhar