OmniHuman-1.5:Toward Virtual Humans with “Soul”

OmniHuman-1.5:Toward Virtual Humans with “Soul”

¿Alguna vez has visto videos con humanos digitales animados suavemente, pero sentiste que les faltaba emoción genuina? Para superar esta limitación, presentamos OmniHuman-1.5, desarrollado por ByteDance—un marco innovador diseñado para generar animaciones de personajes que trascienden la mímica superficial. No solo da vida a avatares virtuales, sino que también los dota de la capacidad de expresar emociones.

De la Imitación a la Expresión: Un Avance Técnico

OmniHuman-1.5 utiliza un marco de simulación de doble sistema.

Primero, este método aprovecha los grandes modelos multimodales para generar representaciones semánticas estructuradas, proporcionando una guía semántica avanzada que permite que la generación de movimiento trascienda la mera sincronización de ritmo y se alinee mejor con el contexto y la emoción.

Segundo, a través de una arquitectura DiT multimodal especialmente diseñada y un mecanismo de pseudo-fotograma final, fusiona eficientemente la información multimodal mientras mitiga conflictos, generando así acciones profundamente consistentes con los personajes, escenas e idioma. OmniHuman-1.5

¿Qué Puede Hacer OmniHuman-1.5?

🎶Actuaciones Musicales

Con solo una foto y una canción, OmniHuman-1.5 puede crear un “cantante digital” que imita con precisión las pausas, respiros y ritmo del artista.

🎭Actuación Emocional

OmniHuman-1.5 no solo puede crear cantantes digitales, sino también producir actores digitales con emoción.

🗣️Gestos Conscientes del Contexto

En lugar de gestos repetitivos, las animaciones se alinean con el significado. Por ejemplo, cuando el audio menciona “corazón”, el personaje coloca naturalmente una mano en su pecho.

✍️Animación Guiada por Texto

OmniHuman-1.5 admite control de indicaciones. Los ejemplos incluyen:

  1. movimientos de cámara: “La cámara rodea lentamente al personaje para un ambiente de cine de arte”.
  2. generación de objetos: “El avatar se estira hacia la lente, luego comienza a hablar”.
  3. acciones específicas: “Un pingüino baila, usa gafas de sol y actúa en el escenario”.

👥Escenarios Multi-Personaje y Estilizados

A diferencia de los humanos digitales anteriores, OmniHuman-1.5 puede participar en conversaciones grupales y realizar actos de conjunto.

También funciona con humanos, animales, figuras antropomórficas y dibujos animados estilizados, mostrando una versatilidad notable.

Conclusión: Hacia Humanos Virtuales con “Alma”

La tecnología de humanos virtuales ha logrado un nuevo avance. La aparición de OmniHuman-1.5 significa una nueva era donde los humanos virtuales han evolucionado de la mímica superficial a la expresión profunda. Puede entender lo que dices e involucrarse en una comunicación genuina y sincera contigo. ¡Esperemos con entusiasmo el lanzamiento del modelo OmniHuman-1.5!

Regístrate ahora en WaveSpeedAI. Además, puedes conectar con nosotros en las redes sociales a continuación.

Discord: Discord