Créer un Présentateur IA en 5 Minutes : Guide du Débutant pour Créer des Humains Numériques

Un tutoriel étape par étape pour construire un humain numérique sur WaveSpeedAI.

Avant-propos

Tout le monde n’est pas né orateur naturel, et tout le monde ne se sent pas à l’aise de parler devant une foule.

Se lever pour prendre la parole peut être stressant — mais et si un « vous virtuel » pouvait faire la présentation, se produire en direct, ou enregistrer votre message promotionnel à votre place ? Auriez-vous toujours peur ?

Sur WaveSpeedAI, ce n’est plus seulement une idée ! Vous pouvez construire votre propre humain numérique de toutes pièces et le faire parler vos paroles avec une voix et des expressions réalistes.

Il n’a pas le trac, il ne se fatigue jamais, et vous pouvez l’affiner et le réutiliser autant de fois que vous le souhaitez. C’est votre partenaire fiable au travail et dans la vie.

Dans ce tutoriel, nous vous guiderons de zéro à un en construisant un simple humain numérique étape par étape. Les modèles que nous utilisons ici ne sont que le début — n’hésitez pas à explorer plus de capacités et de styles pour rendre votre humain numérique vraiment unique.

Sur WaveSpeedAI, nos modèles produisent des visuels clairs et stables avec des contours naturels et sont prêts à être affichés. Ils fonctionnent bien pour les segments de présentation formels, les conversations casual et les explications de produits.

Génération d’image

Un humain numérique beau, mignon et naturel offre une meilleure expérience aux spectateurs. Cela attirera également plus d’attention et de trafic vers votre chaîne.

Vous pouvez aussi en créer un directement à partir d’une photo personnelle. Si vous avez déjà une photo appropriée prête, n’hésitez pas à sauter cette partie.

J’utiliserai bytedance/seedream-v4 comme exemple pour vous aider à créer un avatar virtuel qui soit unique en son genre.

Sur WaveSpeedAI, recherchez bytedance/seedream-v4 — c’est un modèle texte-vers-image. Maintenant, entrons une requête pour créer votre propre humain numérique :

Portrait en demi-longueur d'une jeune femme humain numérique (22–28 ans), 
maquillage naturel, chemise blanche et blazer gris clair, 
regardant la caméra, lumière studio douce, 
arrière-plan gris clair uni, ultra réaliste, 4k, 85mm, f/2.8

Résultat Seedream

Vous pouvez personnaliser des éléments comme le genre, la tenue et l’arrière-plan pour répondre à vos besoins, créant ainsi diverses ambiances et atmosphères pour que votre humain numérique se sente plus attrayant et conforme à votre marque.

Génération vocale

Maintenant que votre humain numérique est prêt, l’étape suivante est de rédiger un script de voix-off clair pour qu’il puisse « parler » naturellement.

Dans WaveSpeedAI, allez à Catégorie > Texte-vers-Audio pour explorer divers modèles. Nous proposons des modèles pour la narration naturelle, le clonage vocal et même la composition musicale.

Catégorie Texte-vers-Audio

Dans cette section, nous utiliserons minimax/speech-02-hd comme exemple. N’hésitez pas à essayer d’autres modèles pour explorer différents styles et effets vocaux.

Modèle Minimax

Dans le Terrain de jeu du modèle, vous verrez des paramètres clés comme text et voice_id. Ils travaillent ensemble pour façonner le ton et le timbre de votre humain numérique, et vous pouvez les ajuster pour différents scénarios. Par exemple, l’humain numérique que j’ai créé est de sexe féminin, donc je peux sélectionner la première option vocale, Wise_Woman.

Sélection de l'ID vocal

Paramètres clés

Vitesse

speed contrôle la vitesse à laquelle votre humain numérique parle. Choisissez un rythme qui convient à la scène — par exemple, ralentissez un peu pour les introductions de produits et accélérez pour les conversations casual. Une valeur de 1 indique une vitesse normale.

Paramètre de vitesse

Volume

volume définit le niveau sonore. Si votre humain numérique raconte une histoire avant le coucher, vous pouvez diminuer speed pour ralentir et réduire le volume pour une livraison plus douce. Une valeur de 1 est le volume par défaut.

Paramètre de volume

Pitch

pitch ajuste le ton de la voix. Modifiez cela pour rendre la voix plus claire et perçante ou plus profonde et pleine. Une valeur de 0 est le pitch par défaut.

Paramètre de pitch

Émotion

emotion contrôle le style de parole de votre humain numérique. Choisissez un ton qui correspond à la scène — ici, nous choisirons happy.

Paramètre d'émotion

Normalisation anglaise

L’option english_normalization, quand elle est activée, rend les nombres et les symboles en anglais naturels à l’oral. Sans elle, le système pourrait lire les chiffres un par un (par exemple, « un deux trois » pour « 123 ») au lieu de « cent vingt-trois ».

Normalisation anglaise

Fréquence d’échantillonnage

sample_rate détermine la qualité audio (résolution). Si vous produisez du contenu de style ASMR, visez une fréquence d’échantillonnage plus élevée pour plus de détails. Pour cet exemple de tutoriel, ce n’est pas critique — maintenir la valeur par défaut est parfaitement acceptable.

Fréquence d'échantillonnage

Débit binaire

bitrate détermine à la fois la qualité et la taille de votre fichier audio. Il représente le nombre de bits traités par seconde. Un débit binaire plus faible crée un fichier plus petit mais peut perdre des détails ; un débit binaire plus élevé entraîne un fichier plus volumineux avec un son plus clair.

Débit binaire

Canal

Le paramètre channel détermine le nombre de canaux audio générés.

channel = 1 (mono) : Tout le son est mélangé dans un seul canal — idéal pour la voix téléphonique, les enregistrements d’appels ou le contenu axé sur le dialogue où la largeur spatiale n’est pas nécessaire.
channel = 2 (stéréo) : Le son est divisé entre les canaux gauche et droit, créant une largeur et une sensation d’espace pour une expérience plus immersive et en couches — parfait pour la musique, les films, les jeux et les voix-off vidéo qui exigent une qualité d’écoute supérieure.

Paramètre de canal

Format

format vous permet de sélectionner le type de fichier audio de sortie (nous omettrons les détails ici).

Paramètre de format

Amplification de la langue

language_boost améliore la compréhension du modèle de votre langue sélectionnée. Pour ce tutoriel, choisissez English.

Amplification de la langue

Générer l’audio

Ensuite, collez votre script et cliquez sur Run pour générer l’audio !

Bienvenue dans le tutoriel d’humain numérique de WaveSpeedAI. Nous allons susciter des idées novatrices en AIGC et vous montrer des étapes pratiques. Libérons ensemble votre créativité !

Téléchargez le fichier audio — c’est la pièce cruciale qui permettra à votre humain numérique de parler plus tard !

Faire parler l’humain numérique

Enfin, le moment passionnant : nous allons faire en sorte que votre humain numérique parle vraiment !

Sur WaveSpeedAI, recherchez wavespeed-ai/infinitetalk — notre modèle haute qualité conçu spécifiquement pour les voix-off d’humains numériques.

Dans le Terrain de jeu du modèle, vous verrez deux entrées requises : audio et image.

audio : Téléchargez le fichier de voix-off que vous venez de télécharger.
image : Téléchargez l’image de l’humain numérique que vous avez générée précédemment.

Entrées Infinitetalk

Après avoir cliqué sur Run, l’humain numérique réagit à l’audio et synchronise automatiquement les mouvements des lèvres et les expressions faciales.

Paramètre d’image de masque

Ensuite, examinons le paramètre mask_image. Il vous permet de spécifier exactement quelles parties de l’image doivent être animées.

Paramètre d'image de masque

Sur la page Create Mask, définissez avec précision la zone animable : ajustez la Brush Size, peignez sur les régions que vous souhaitez animer, puis cliquez sur Use Mask pour appliquer.

Vous pouvez également cliquer sur Download Mask pour enregistrer la mask_image en tant que modèle pour une réutilisation rapide dans les projets futurs.

Créer un masque

Personnalisation supplémentaire

Si vous avez des besoins supplémentaires — comme spécifier une pose, des gestes de main ou la direction du regard — ajoutez des instructions plus spécifiques dans le prompt.

Pour une réplication facile, définissez une valeur seed fixe. Cela garantit que le caractère aléatoire est cohérent pour que vous puissiez reproduire les mêmes résultats plus tard.

Paramètre de seed

Enfin, cliquez sur Run, et attendons avec impatience le résultat final !

Félicitations ! Vous avez votre propre humain numérique !

Prêt à progresser vers des scènes multi-personnes ? WaveSpeedAI fournit également des modèles dédiés pour cela. Explorons-les ensemble !

Génération multi-locuteurs

Sur WaveSpeedAI, recherchez wavespeed-ai/infinitetalk/multi. Ses étapes sont pratiquement les mêmes que pour le modèle monolocuteur.

Cette fois, ajoutez deux fichiers audio, puis téléchargez une image présentant deux humains numériques pour que les deux personnages puissent débiter leurs répliques.

Portez une attention particulière à l’appairage entre l’audio et les positions dans l’image :

left_audio → la personne à gauche dans l’image
right_audio → la personne à droite dans l’image

Vérifiez attentivement la correspondance ; sinon, les voix pourraient être liées aux mauvais personnages.

Entrées multi

Modes de parole

Dans le modèle wavespeed-ai/infinitetalk/multi, il supporte trois modes de parole :

left_right (de gauche à droite)
right_left (de droite à gauche)
meanwhile (parole simultanée)

Modes de parole

De la même manière, avec ce modèle, vous pouvez ajouter les détails que vous souhaitez grâce au prompt et définir une seed pour une reproductibilité facile.

Et voilà, vous avez un spectacle de voix-off à deux personnes !

Autres modèles

Sur WaveSpeedAI, nous vous fournissons également de nombreux modèles supplémentaires :

wavespeed-ai/multitalk : Parfait pour les « humains numériques de style chanson », permettant les vocaux multipistes et des performances plus expressives.
wavespeed-ai/infinitetalk/video-to-video : Ajoutez une voix-off ou une narration aux vidéos existantes pour que les visuels et l’audio restent naturellement synchronisés.
wavespeed-ai/song-generation : Créez de la musique à partir de zéro pour concevoir une bande sonore personnalisée et une atmosphère pour votre contenu.

Ces modèles offrent également des expériences uniques qui sont difficiles à reproduire sur d’autres plates-formes. Soyez audacieux — essayez-les et partagez votre travail ! Vous pouvez publier dans la section Inspiration pour vous connecter et interagir avec d’autres créateurs !

Autres modèles

Réflexions finales

Notre monde change rapidement, et l’IA influence de plus en plus notre vie quotidienne. S’en tenir aux anciennes méthodes n’augmente que les coûts, ralentit les progrès et risque de manquer de nouvelles opportunités.

C’est le moment idéal pour adopter une nouvelle technologie et profiter de la commodité et de l’efficacité qu’elle offre. WaveSpeedAI fournit un soutien à long terme pour votre création de contenu avec une technologie fiable et un écosystème en croissance constante.

Où que votre créativité vous mène, WaveSpeedAI sera là en tant que votre fondation fiable et votre partenaire de confiance.

Avant-propos

Génération d’image

Génération vocale

Paramètres clés

Vitesse

Volume

Pitch

Émotion

Normalisation anglaise

Fréquence d’échantillonnage

Débit binaire

Canal

Format

Amplification de la langue

Générer l’audio

Faire parler l’humain numérique

Paramètre d’image de masque

Personnalisation supplémentaire

Génération multi-locuteurs

Modes de parole

Autres modèles

Réflexions finales

Articles associés

Seedance 2.0 arrive bientôt : Le modèle vidéo nouvelle génération de ByteDance avec audio natif

Guide Complet Seedance 2.0 : Création Vidéo Multimodale

Guide Complet Seedream 5.0-Preview : Génération d'Images Intelligente

Seedream 5.0 vs Nano Banana Pro vs GPT Image 1.5 vs Flux Klein vs Qwen Image : Comparaison Complète

Examen de Vidu Q3 : Comment il se compare à Sora 2, Wan 2.6, Seedance 1.5, Veo 3.1 et Grok Imagine Video

Grok Imagine Video vs Sora 2, Veo 3.1, Seedance 1.5, WAN 2.5/2.6, et Vidu Q3 : Comparaison complète