OmniHuman-1.5:Toward Virtual Humans with “Soul”

Você já assistiu a vídeos com humanos digitais animados suavemente, mas sentiu que lhes faltava genuína emoção? Para superar essa limitação, apresentamos o OmniHuman-1.5, desenvolvido pela ByteDance—um framework inovador projetado para gerar animações de personagens que transcendem a mera imitação superficial. Ele não apenas dá vida a avatares virtuais, mas também os capacita com a habilidade de expressar emoções.

Da Imitação à Expressão: Um Avanço Técnico

O OmniHuman-1.5 emprega um framework de simulação de sistema duplo.

Primeiro, este método aproveita modelos de linguagem multimodais para gerar representações semânticas estruturadas, fornecendo orientação semântica avançada que permite que a geração de movimento transcenda a mera sincronização de ritmo e se alinhe melhor com o contexto e a emoção.

Segundo, através de uma arquitetura DiT multimodal especialmente projetada e um mecanismo pseudo-frame-final, ele funde eficientemente informações multimodais enquanto mitiga conflitos, gerando assim ações profundamente consistentes com personagens, cenas e linguagem. OmniHuman-1.5

O Que o OmniHuman-1.5 Pode Fazer?

🎶Apresentações Musicais

Usando apenas uma foto e uma música, o OmniHuman-1.5 pode criar um “cantor digital” que imita precisamente as pausas, respirações e ritmo do artista.

🎭Atuação Emocional

O OmniHuman-1.5 não apenas pode criar cantores digitais, mas também produzir atores digitais emocionais.

🗣️Gestos Sensíveis ao Contexto

Em vez de gestos repetitivos, as animações se alinham com o significado. Por exemplo, quando o áudio menciona “coração”, o personagem coloca naturalmente a mão no peito.

✍️Animação Guiada por Texto

O OmniHuman-1.5 suporta controle por prompt. Os exemplos incluem:

movimentos de câmera: “A câmera circula lentamente o personagem para um clima artístico.”
geração de objetos: “O avatar se estende em direção à lente, depois começa a falar.”
ações específicas: “Um pinguim dança, usa óculos de sol e se apresenta no palco.”

👥Cenários Multi-Personagem e Estilizados

Diferentemente dos humanos digitais anteriores, o OmniHuman-1.5 pode se envolver em conversas em grupo e realizar atos em conjunto.

Ele também funciona com humanos, animais, figuras antropomórficas e desenhos animados estilizados, demonstrando uma versatilidade notável.

Conclusão: Em Direção a Humanos Virtuais com “Alma”

A tecnologia de humanos virtuais alcançou um novo avanço. O surgimento do OmniHuman-1.5 marca uma nova era onde humanos virtuais evoluíram de imitação superficial para expressão profunda. Ele pode entender o que você diz e se envolver em comunicação genuína e sincera com você. Vamos aguardar com entusiasmo o lançamento do modelo OmniHuman-1.5!

Registre-se agora em WaveSpeedAI. Além disso, você pode se conectar conosco nas redes sociais abaixo.

Discord: Discord