Erstellen Sie einen KI-Moderator in 5 Minuten: Ein Anfängerleitfaden zum Erstellen digitaler Menschen

Eine Schritt-für-Schritt-Anleitung zum Erstellen eines digitalen Menschen auf WaveSpeedAI.

Vorwort

Nicht jeder ist ein natürlicher Redner, und nicht jeder fühlt sich wohl dabei, vor einer Menge zu sprechen.

Aufzustehen und zu sprechen kann nervenaufreibend sein — aber was ist, wenn ein „virtueller Sie” die Präsentation halten, live gehen oder Ihren Promo-Text für Sie sprechen könnte? Würden Sie sich dann immer noch fürchten?

Auf WaveSpeedAI ist das nicht mehr nur eine Idee! Sie können Ihren eigenen digitalen Menschen von Grund auf erstellen und ihn Ihre Worte mit realistischer Stimme und Ausdrücken sprechen lassen.

Es wird nicht nervös, es wird nie müde, und Sie können es so oft verfeinern und wiederverwenden, wie Sie möchten. Es ist Ihr zuverlässiger Partner bei der Arbeit und im Leben.

In diesem Tutorial führen wir Sie von Null zu Eins, während Sie Schritt für Schritt einen einfachen digitalen Menschen erstellen. Die Modelle, die wir hier verwenden, sind erst der Anfang — erkunden Sie gerne weitere Funktionen und Stile, um Ihren digitalen Menschen wirklich einzigartig zu machen.

Auf WaveSpeedAI produzieren unsere Modelle klare, stabile Visuals mit natürlichen Kanten und sind sofort einsatzbereit. Sie funktionieren hervorragend für formale Talking-Head-Segmente, ungezwungene Gespräche und Produkterklärungen gleichermaßen.

Bildgenerierung

Ein gut aussehender, niedlicher und natürlich wirkender digitaler Mensch bietet den Zuschauern ein besseres Erlebnis. Es wird auch mehr Aufmerksamkeit und Verkehr auf Ihren Kanal bringen.

Sie können auch direkt aus einem persönlichen Foto einen erstellen. Wenn Sie bereits ein geeignetes Foto bereit haben, können Sie diesen Teil gerne überspringen.

Ich verwende bytedance/seedream-v4 als Beispiel, um Ihnen bei der Erstellung eines virtuellen Avatars zu helfen, der einzigartig ist.

Suchen Sie auf WaveSpeedAI nach bytedance/seedream-v4 — es ist ein Text-zu-Bild-Modell. Geben Sie nun einen Prompt ein, um Ihren eigenen digitalen Menschen zu erstellen:

Half-length portrait of a young female digital human (22–28), 
natural makeup, white shirt and light gray blazer, 
looking at camera, soft studio light, 
plain light-gray background, ultra realistic, 4k, 85mm, f/2.8

Seedream Result

Sie können Elemente wie Geschlecht, Kleidung und Hintergrund anpassen, um Ihren Anforderungen zu entsprechen, und verschiedene Stile und Stimmungen erstellen, damit Ihr digitaler Mensch ansprechender und markentreuer wirkt.

Sprachgenerierung

Jetzt, da Ihr digitaler Mensch bereit ist, besteht der nächste Schritt darin, ein klares Voiceover-Skript zu erstellen, damit dieser natürlich „sprechen” kann.

Gehen Sie auf WaveSpeedAI zu Category > Text-to-Audio, um verschiedene Modelle zu erkunden. Wir bieten Modelle für natürliche Voiceovers, Stimmenklone und sogar Musikkomposition an.

Text-to-Audio Category

In diesem Abschnitt verwenden wir minimax/speech-02-hd als unser Beispiel. Probieren Sie gerne andere Modelle aus, um verschiedene Vokalstile und Effekte zu erkunden.

Minimax Model

Im Playground des Modells sehen Sie wichtige Parameter wie text und voice_id. Diese arbeiten zusammen, um den Ton und die Klangfarbe Ihres digitalen Menschen zu prägen, und Sie können sie an verschiedene Szenarien anpassen. Beispielsweise ist der digitale Mensch, den ich erstellt habe, weiblich, daher kann ich die erste Sprachoption wählen, Wise_Woman.

Voice ID Selection

Wichtige Parameter

Geschwindigkeit

speed steuert, wie schnell Ihr digitaler Mensch spricht. Wählen Sie ein Tempo, das zur Szene passt — beispielsweise etwas langsamer für Produkteinführungen und schneller für ungezwungene Gespräche. Ein Wert von 1 zeigt normale Geschwindigkeit an.

Speed Parameter

Lautstärke

volume bestimmt die Lautstärke. Wenn Ihr digitaler Mensch eine Gutenachtgeschichte erzählt, können Sie speed verringern, um die Dinge zu verlangsamen, und die volume für eine sanftere Lieferung reduzieren. Ein Wert von 1 ist die Standardlautstärke.

Volume Parameter

Tonhöhe

pitch passt den Ton der Stimme an. Passen Sie dies an, um die Stimme heller und schärfer oder tiefer und voller klingen zu lassen. Ein Wert von 0 ist die Standardtonhöhe.

Pitch Parameter

Emotion

emotion steuert den Sprachstil Ihres digitalen Menschen. Wählen Sie einen Ton, der zur Szene passt — hier wählen wir happy aus.

Emotion Parameter

Englische Normalisierung

Die Option english_normalization macht bei Aktivierung Zahlen und Symbole im Englischen in der Sprache natürlich. Ohne sie könnte das System Ziffern einzeln lesen (z. B. „one two three” für „123”) anstelle von „one hundred and twenty-three”.

English Normalization

Abtastrate

sample_rate bestimmt die Audioqualität (Auflösung). Wenn Sie ASMR-ähnliche Inhalte produzieren, streben Sie eine höhere Abtastrate für reichere Details an. Für dieses Tutorial-Beispiel ist es nicht kritisch — das Standard beizubehalten ist völlig in Ordnung.

Sample Rate

Bitrate

bitrate bestimmt sowohl die Qualität als auch die Größe Ihrer Audiodatei. Sie stellt die Anzahl der pro Sekunde verarbeiteten Bits dar. Eine niedrigere Bitrate erzeugt eine kleinere Datei, kann aber Details verlieren; eine höhere Bitrate führt zu einer größeren Datei mit klarererem Klang.

Bitrate

Kanal

Der Parameter channel bestimmt die Anzahl der generierten Audiokanäle.

channel = 1 (mono): Der ganze Klang wird in einen einzelnen Kanal gemischt — ideal für Telefonstimmen, Anrufaufzeichnungen oder dialogfokussierte Inhalte, bei denen räumliche Breite nicht erforderlich ist.
channel = 2 (stereo): Der Klang wird in links und rechts aufgeteilt, wodurch eine Breite und ein räumliches Gefühl für ein immersiveres, mehrschichtiges Erlebnis entstehen — perfekt für Musik, Film, Spiele und Video-Voiceovers, die höhere Hörerqualität erfordern.

Channel Parameter

Format

format ermöglicht Ihnen, den Ausgabe-Audiodateityp auszuwählen (wir überspringen hier die Einzelheiten).

Format Parameter

Sprachunterstützung

language_boost verbessert das Verständnis des Modells für Ihre ausgewählte Sprache. Wählen Sie für dieses Tutorial English aus.

Language Boost

Audio generieren

Fügen Sie dann Ihr Skript ein und klicken Sie auf Run, um das Audio zu generieren!

Welcome to WaveSpeedAI’s Digital Human Tutorial. We’ll spark fresh ideas in AIGC and show you practical steps. Let’s unleash your creativity together!

Laden Sie die Audiodatei herunter — dies ist das entscheidende Element, das Ihrem digitalen Menschen später das Sprechen ermöglicht!

Den digitalen Menschen sprechen lassen

Endlich, der aufregende Moment: Wir werden Ihren digitalen Menschen tatsächlich zum Sprechen bringen!

Suchen Sie auf WaveSpeedAI nach wavespeed-ai/infinitetalk — unserem hochqualitätigen Modell speziell für digitale Voiceovers.

Im Playground des Modells sehen Sie zwei erforderliche Eingaben: audio und image.

audio: Laden Sie die gerade heruntergeladene Voiceover-Datei hoch.
image: Laden Sie das zuvor generierte Bild des digitalen Menschen hoch.

Infinitetalk Inputs

Nach dem Klicken auf Run reagiert der digitale Mensch auf das Audio und synchronisiert automatisch die Lippenbewegungen und Gesichtsausdrücke.

Maskenbild-Parameter

Schauen Sie sich nun den Parameter mask_image an. Damit können Sie genau festlegen, welche Teile des Bildes animiert werden sollen.

Mask Image Parameter

Definieren Sie auf der Seite Create Mask genau den beweglichen Bereich: Passen Sie die Brush Size an, malen Sie über die Bereiche, die Sie animieren möchten, und klicken Sie auf Use Mask, um die Maske anzuwenden.

Sie können auch auf Download Mask klicken, um das mask_image als Vorlage zur schnellen Wiederverwendung in zukünftigen Projekten zu speichern.

Create Mask

Zusätzliche Anpassung

Wenn Sie zusätzliche Anforderungen haben — z. B. Festlegung einer Pose, Handgesten oder Blickrichtung — fügen Sie im prompt detailliertere Anweisungen hinzu.

Legen Sie für einfache Replikation einen festen seed-Wert fest. Dies stellt sicher, dass die Zufälligkeit konsistent ist, damit Sie später die gleichen Ergebnisse reproduzieren können.

Seed Parameter

Klicken Sie abschließend auf Run, und lassen Sie uns auf das endgültige Ergebnis freuen!

Glückwunsch! Sie haben Ihren eigenen digitalen Menschen!

Bereit für den Fortschritt zu Multi-Person-Szenen? WaveSpeedAI bietet auch dedizierte Modelle dafür. Lassen Sie uns sie zusammen erkunden!

Generierung mehrerer Sprecher

Suchen Sie auf WaveSpeedAI nach wavespeed-ai/infinitetalk/multi. Die Schritte sind grundsätzlich die gleichen wie bei dem Einzelperson-Modell.

Fügen Sie diesmal zwei Audiodateien hinzu, laden Sie dann ein Bild mit zwei digitalen Menschen hoch, damit beide Charaktere ihre Linien sprechen können.

Achten Sie genau auf die Paarung zwischen Audio und Positionen im Bild:

left_audio → die Person auf der linken Seite im Bild
right_audio → die Person auf der rechten Seite im Bild

Überprüfen Sie die Zuordnung sorgfältig; andernfalls könnten die Stimmen den falschen Charakteren zugeordnet werden.

Multi Inputs

Sprachmodi

Das Modell wavespeed-ai/infinitetalk/multi unterstützt drei Sprachmodi:

left_right (von links nach rechts)
right_left (von rechts nach links)
meanwhile (gleichzeitiges Sprechen)

Speaking Modes

Ähnlich wie bei diesem Modell können Sie die Details, die Sie möchten, über den prompt hinzufügen und einen seed für einfache Reproduzierbarkeit festlegen.

Und schon haben Sie eine zweisprachige Voiceover-Show!

Andere Modelle

Auf WaveSpeedAI stellen wir Ihnen auch viele zusätzliche Modelle zur Verfügung:

wavespeed-ai/multitalk: Perfekt für „songstyle digitale Menschen” und ermöglicht mehrstimmige Vocals und ausdrucksvollere Auftritte.
wavespeed-ai/infinitetalk/video-to-video: Fügen Sie Voiceover oder Erzählung zu bestehenden Videos hinzu, damit Visuals und Audio natürlich synchronisiert bleiben.
wavespeed-ai/song-generation: Erstellen Sie Musik von Grund auf, um einen benutzerdefinierten Soundtrack und eine Atmosphäre für Ihren Inhalt zu entwerfen.

Diese Modelle bieten auch einzigartige Erlebnisse, die auf anderen Plattformen schwer zu replizieren sind. Seien Sie mutig — probieren Sie sie aus und teilen Sie Ihre Arbeit! Sie können im Abschnitt Inspiration posten, um sich mit anderen Kreativen auszutauschen und zu interagieren!

Other Models

Abschließende Gedanken

Unsere Welt verändert sich schnell, und KI beeinflusst zunehmend unser tägliches Leben. An alten Methoden festzuhalten, erhöht nur die Kosten, verlangsamt den Fortschritt und riskiert neue Chancen zu verpassen.

Jetzt ist die perfekte Zeit, neue Technologie anzunehmen und die Bequemlichkeit und Effizienz zu genießen, die sie bietet. WaveSpeedAI bietet langfristige Unterstützung für Ihre Content-Erstellung mit zuverlässiger Technologie und einem ständig wachsenden Ökosystem.

Wohin auch immer Ihre Kreativität führt, WaveSpeedAI wird dort als Ihre zuverlässige Grundlage und Ihr vertrauenswürdiger Partner sein.

Vorwort

Bildgenerierung

Sprachgenerierung

Wichtige Parameter

Geschwindigkeit

Lautstärke

Tonhöhe

Emotion

Englische Normalisierung

Abtastrate

Bitrate

Kanal

Format

Sprachunterstützung

Audio generieren

Den digitalen Menschen sprechen lassen

Maskenbild-Parameter

Zusätzliche Anpassung

Generierung mehrerer Sprecher

Sprachmodi

Andere Modelle

Abschließende Gedanken

Verwandte Artikel

Seedance 2.0 kommt bald: ByteDances nächste Generation Video-Modell mit nativer Audioerzeugung

Seedance 2.0 Vollständiger Leitfaden: Multimodale Videoerstellung

Seedream 5.0-Preview Komplettleitfaden: Intelligente Bildgenerierung

Seedream 5.0 vs Nano Banana Pro vs GPT Image 1.5 vs Flux Klein vs Qwen Image: Vollständiger Vergleich

Vidu Q3 Review: Vergleich mit Sora 2, Wan 2.6, Seedance 1.5, Veo 3.1 und Grok Imagine Video

Grok Imagine Video vs Sora 2, Veo 3.1, Seedance 1.5, WAN 2.5/2.6 und Vidu Q3: Vollständiger Vergleich