OmniHuman-1.5:Toward Virtual Humans with “Soul”
Pernahkah Anda menonton video yang menampilkan manusia digital yang beranimasi mulus, tetapi merasa bahwa mereka kekurangan emosi yang autentik? Untuk mengatasi keterbatasan ini, kami memperkenalkan OmniHuman-1.5, yang dikembangkan oleh ByteDance—sebuah kerangka kerja revolusioner yang dirancang untuk menghasilkan animasi karakter yang melampaui peniruan permukaan. Tidak hanya membawa avatar virtual ke kehidupan, tetapi juga memberdayakan mereka dengan kemampuan untuk mengekspresikan emosi.
Dari Peniruan hingga Ekspresi: Terobosan Teknis
OmniHuman-1.5 menggunakan kerangka kerja simulasi sistem ganda.
Pertama, metode ini memanfaatkan model besar multimodal untuk menghasilkan representasi semantik terstruktur, memberikan panduan semantik lanjutan yang memungkinkan generasi gerak melampaui sinkronisasi ritme sederhana dan selaras lebih baik dengan konteks dan emosi.
Kedua, melalui arsitektur DiT multimodal yang dirancang khusus dan mekanisme pseudo-frame-akhir, ia secara efisien menggabungkan informasi multimodal sambil mengurangi konflik, sehingga menghasilkan tindakan yang sangat konsisten dengan karakter, adegan, dan bahasa.

Apa yang Dapat Dilakukan OmniHuman-1.5?
🎶Pertunjukan Musik
Dengan hanya menggunakan foto dan lagu, OmniHuman-1.5 dapat membuat “penyanyi digital” yang secara presisi meniru jeda, napas, dan ritme artis.
🎭Akting Emosional
OmniHuman-1.5 tidak hanya dapat membuat penyanyi digital tetapi juga menghasilkan aktor digital yang emosional.
🗣️Gestur Sadar Konteks
Daripada gestur berulang, animasi selaras dengan makna. Misalnya, ketika audio menyebutkan “jantung”, karakter secara alami meletakkan tangan di dadanya.
✍️Animasi Terpandu Teks
OmniHuman-1.5 mendukung kontrol prompt. Contohnya meliputi:
- gerakan kamera: “Kamera perlahan mengelilingi karakter untuk suasana arthouse.”
- generasi objek: “Avatar mendekat ke lensa, kemudian mulai berbicara.”
- tindakan spesifik: “Seekor penguin menari, memakai kacamata hitam, dan tampil di panggung.”
👥Skenario Multi-Karakter dan Bergaya
Berbeda dengan manusia digital sebelumnya, OmniHuman-1.5 dapat terlibat dalam percakapan kelompok dan melakukan pertunjukan ensemble.
Ia juga bekerja di seluruh manusia, hewan, tokoh antropomorfis, dan kartun bergaya, menunjukkan keserbagunaan yang luar biasa.
Kesimpulan: Menuju Manusia Virtual dengan “Jiwa”
Teknologi manusia virtual telah mencapai terobosan baru. Munculnya OmniHuman-1.5 menandakan era baru di mana manusia virtual telah berkembang dari peniruan permukaan menjadi ekspresi mendalam. Ia dapat memahami apa yang Anda katakan dan terlibat dalam komunikasi yang autentik dan tulus dengan Anda. Mari kita menantikan peluncuran model OmniHuman-1.5!
Daftar sekarang di WaveSpeedAI. Selain itu, Anda dapat terhubung dengan kami di media sosial di bawah ini.
Discord: Discord



