Crea un Presentador de IA en 5 Minutos: Una Guía para Principiantes sobre Humanos Digitales

Un tutorial paso a paso para construir un humano digital en WaveSpeedAI.

Prólogo

No todos nacen oradores naturales, y no todos se sienten cómodos hablando frente a una multitud.

Ponerse de pie para hablar puede ser angustioso, pero ¿y si un “tú virtual” pudiera hacer la presentación, transmitir en directo o grabar tu promoción por ti? ¿Seguirías teniendo miedo?

¡En WaveSpeedAI, eso ya no es solo una idea! Puedes construir tu propio humano digital desde cero y hacer que hable tus palabras con voz realista y expresiones naturales.

No sufre pánico escénico, nunca se cansa, y puedes refinarlo y reutilizarlo todas las veces que quieras. Es tu socio confiable en el trabajo y en la vida.

En este tutorial, te guiaremos de cero a uno mientras construyes un humano digital simple paso a paso. Los modelos que usamos aquí son solo el comienzo: siéntete libre de explorar más capacidades y estilos para hacer que tu humano digital sea realmente único.

En WaveSpeedAI, nuestros modelos producen visuales claros y estables con bordes naturales y están listos para ser mostrados. Funcionan bien para segmentos de cabeza parlante formales, conversaciones casuales y explicadores de productos por igual.

Generación de Imagen

Un humano digital atractivo, adorable y de aspecto natural proporciona a los espectadores una mejor experiencia. También atraerá más atención y tráfico a tu canal.

También puedes crear uno directamente desde una foto personal. Si ya tienes una foto adecuada lista, siéntete libre de omitir esta parte.

Usaré bytedance/seedream-v4 como ejemplo para ayudarte a crear un avatar virtual que sea únicamente tuyo.

En WaveSpeedAI, busca bytedance/seedream-v4: es un modelo de texto a imagen. Ahora, introduzcamos un prompt para crear tu propio humano digital:

Half-length portrait of a young female digital human (22–28), 
natural makeup, white shirt and light gray blazer, 
looking at camera, soft studio light, 
plain light-gray background, ultra realistic, 4k, 85mm, f/2.8

Seedream Result

Puedes personalizar elementos como género, atuendo y fondo para adaptarse a tus necesidades, creando varios estilos y ambientes para que tu humano digital se sienta más atractivo y acorde con tu marca.

Generación de Voz

Ahora que tu humano digital está listo, el siguiente paso es redactar un guion de voz en off claro para que puedan “hablar” de manera natural.

En WaveSpeedAI, ve a Categoría > Texto a Audio para explorar varios modelos. Ofrecemos modelos para voces en off naturales, clonación de voz e incluso composición de canciones.

Text-to-Audio Category

En esta sección, usaremos minimax/speech-02-hd como nuestro ejemplo. Siéntete libre de probar otros modelos para explorar diferentes estilos y efectos vocales.

Minimax Model

En el Playground del modelo, verás parámetros clave como text y voice_id. Estos funcionan juntos para dar forma al tono y timbre de tu humano digital, y puedes ajustarlos para diferentes escenarios. Por ejemplo, el humano digital que creé es femenino, así que puedo seleccionar la primera opción de voz, Wise_Woman.

Voice ID Selection

Parámetros Clave

Velocidad

speed controla qué tan rápido habla tu humano digital. Elige un ritmo que se adapte a la escena; por ejemplo, ralentiza un poco para introducciones de productos y acelera para conversaciones casuales. Un valor de 1 indica velocidad normal.

Speed Parameter

Volumen

volume establece la loudness. Si tu humano digital está narrando una historia para dormir, puedes reducir speed para ralentizar las cosas y disminuir el volume para una entrega más suave. Un valor de 1 es el volumen por defecto.

Volume Parameter

Tono

pitch ajusta el tono de la voz. Ajusta esto para que la voz suene más brillante y aguda, o más profunda y completa. Un valor de 0 es el tono por defecto.

Pitch Parameter

Emoción

emotion controla el estilo de habla de tu humano digital. Elige un tono que coincida con la escena; aquí, seleccionaremos happy.

Emotion Parameter

Normalización de Inglés

La opción english_normalization, cuando está habilitada, hace que los números y símbolos en inglés suenen naturales en el habla. Sin ella, el sistema podría leer dígitos uno por uno (por ejemplo, “uno dos tres” para “123”) en lugar de “ciento veintitrés”.

English Normalization

Frecuencia de Muestreo

sample_rate determina la calidad del audio (resolución). Si estás produciendo contenido de estilo ASMR, apunta a una frecuencia de muestreo más alta para mayor detalle. Para este ejemplo del tutorial, no es crítico: mantener el valor por defecto está perfectamente bien.

Sample Rate

Tasa de Bits

bitrate determina tanto la calidad como el tamaño de tu archivo de audio. Representa el número de bits procesados por segundo. Una tasa de bits más baja crea un archivo más pequeño pero puede perder detalle; una tasa de bits más alta resulta en un archivo más grande con un sonido más claro.

Bitrate

Canal

El parámetro channel determina el número de canales de audio generados.

channel = 1 (mono): Todo el sonido se mezcla en un solo canal; ideal para voz de teléfono, grabaciones de llamadas o contenido enfocado en diálogos donde el ancho espacial no es necesario.
channel = 2 (estéreo): El sonido se divide en canales izquierdo y derecho, creando ancho y una sensación de espacio para una experiencia más inmersiva y en capas; perfecto para música, películas, juegos y voces en off de video que requieren mayor calidad de escucha.

Channel Parameter

Formato

format te permite seleccionar el tipo de archivo de audio de salida (aquí omitiremos los detalles específicos).

Format Parameter

Impulso de Idioma

language_boost mejora la comprensión del modelo sobre tu idioma seleccionado. Para este tutorial, elige English.

Language Boost

Generar Audio

A continuación, pega tu guion y haz clic en Run para generar el audio.

Welcome to WaveSpeedAI’s Digital Human Tutorial. We’ll spark fresh ideas in AIGC and show you practical steps. Let’s unleash your creativity together!

Descarga el archivo de audio: ¡esta es la pieza crucial que permitirá que tu humano digital hable más adelante!

Hacer que el Humano Digital Hable

Finalmente, el momento emocionante: ¡vamos a hacer que tu humano digital realmente hable!

En WaveSpeedAI, busca wavespeed-ai/infinitetalk: nuestro modelo de alta calidad diseñado específicamente para voces en off de humanos digitales.

En el Playground del modelo, verás dos entradas requeridas: audio e image.

audio: Carga el archivo de voz en off que acabas de descargar.
image: Carga la imagen del humano digital que generaste anteriormente.

Infinitetalk Inputs

Después de hacer clic en Run, el humano digital responde al audio y sincroniza automáticamente los movimientos de los labios y las expresiones faciales.

Parámetro de Imagen de Máscara

A continuación, veamos el parámetro mask_image. Te permite especificar exactamente qué partes de la imagen deben ser animadas.

Mask Image Parameter

En la página Create Mask, define con precisión el área móvil: ajusta el Brush Size, pinta sobre las regiones que deseas animar, luego haz clic en Use Mask para aplicar.

También puedes hacer clic en Download Mask para guardar la mask_image como plantilla para reutilización rápida en proyectos futuros.

Create Mask

Personalización Adicional

Si tienes necesidades adicionales, como especificar una pose, gestos con las manos o dirección de la mirada, añade instrucciones más específicas en el prompt.

Para una replicación fácil, establece un valor seed fijo. Esto asegura que la aleatoriedad sea consistente para que puedas reproducir los mismos resultados más adelante.

Seed Parameter

Finalmente, haz clic en Run y ¡miremos hacia adelante el resultado final!

¡Felicidades! ¡Tienes tu propio humano digital!

¿Listo para avanzar a escenas de múltiples personas? WaveSpeedAI también proporciona modelos dedicados para eso. ¡Explorémoslos juntos!

Generación de Múltiples Hablantes

En WaveSpeedAI, busca wavespeed-ai/infinitetalk/multi. Sus pasos son básicamente los mismos que el modelo de una sola persona.

Esta vez, añade dos archivos de audio, luego carga una imagen con dos humanos digitales para que ambos personajes puedan decir sus líneas.

Presta mucha atención al emparejamiento entre el audio y las posiciones en la imagen:

left_audio → la persona en el lado izquierdo en la imagen
right_audio → la persona en el lado derecho en la imagen

Revisa el mapeo cuidadosamente; de lo contrario, las voces podrían estar vinculadas a los personajes equivocados.

Multi Inputs

Modos de Habla

En el modelo wavespeed-ai/infinitetalk/multi, admite tres modos de habla:

left_right (izquierda a derecha)
right_left (derecha a izquierda)
meanwhile (habla simultánea)

Speaking Modes

De manera similar, con este modelo, puedes añadir los detalles que desees a través del prompt y establecer un seed para fácil reproducibilidad.

¡Y así, tienes un show de voz en off para dos personas!

Otros Modelos

En WaveSpeedAI, también te proporcionamos muchos modelos adicionales:

wavespeed-ai/multitalk: Perfecto para “humanos digitales de estilo canción”, permitiendo vocales multiparte y actuaciones más expresivas.
wavespeed-ai/infinitetalk/video-to-video: Añade voz en off o narración a videos existentes para que los visuales y el audio se mantengan naturalmente sincronizados.
wavespeed-ai/song-generation: Crea música desde cero para diseñar una banda sonora personalizada y una atmósfera para tu contenido.

Estos modelos también ofrecen experiencias únicas que son difíciles de replicar en otras plataformas. Sé atrevido: ¡pruébalos y comparte tu trabajo! ¡Puedes publicar en la sección de Inspiration para conectar e interactuar con otros creadores!

Other Models

Reflexiones Finales

Nuestro mundo está cambiando rápidamente, y la IA está influyendo cada vez más en nuestras vidas diarias. Adherirse a métodos antiguos solo aumenta los costos, ralentiza el progreso y arriesga perder nuevas oportunidades.

Ahora es el momento perfecto para adoptar nueva tecnología y disfrutar de la conveniencia y eficiencia que ofrece. WaveSpeedAI proporciona soporte a largo plazo para tu creación de contenido con tecnología confiable y un ecosistema en constante crecimiento.

Dondequiera que tu creatividad te lleve, WaveSpeedAI estará allí como tu base confiable y socio de confianza.