Создайте AI якорей за 5 минут: Руководство новичка по созданию цифровых человеков

Пошаговое руководство по созданию цифрового человека на WaveSpeedAI.

Предисловие

Не все люди от природы хорошие ораторы, и не все чувствуют себя комфортно при выступлении перед аудиторией.

Выступление может быть нервным — но что если «виртуальный вы» сможет дать презентацию, выступить в прямом эфире или записать ваше промо-чтение за вас? Вы бы всё ещё боялись?

На WaveSpeedAI это больше не просто идея! Вы можете создать своего собственного цифрового человека с нуля и заставить его говорить вашими словами с реалистичным голосом и выражением лица.

Он не страдает от боязни сцены, никогда не устаёт, и вы можете совершенствовать и переиспользовать его столько раз, сколько захотите. Это ваш надёжный партнёр на работе и в жизни.

В этом руководстве мы проведём вас от нуля до результата, создавая простого цифрового человека пошагово. Модели, которые мы используем здесь — это только начало. Не стесняйтесь исследовать дополнительные возможности и стили, чтобы сделать вашего цифрового человека по-настоящему уникальным.

На WaveSpeedAI наши модели производят чёткие, стабильные визуальные эффекты с естественными краями и готовы для демонстрации. Они хорошо работают как для формальных говорящих портретов, так и для непринуждённых разговоров и объяснений продуктов.

Генерация изображений

Красивый, милый и естественно выглядящий цифровой человек обеспечивает зрителям лучший опыт. Это также привлечёт больше внимания и трафика на ваш канал.

Вы также можете создать его непосредственно из личной фотографии. Если у вас уже есть подходящая фотография, смело пропустите эту часть.

Я использую bytedance/seedream-v4 в качестве примера, чтобы помочь вам создать виртуального аватара, который будет уникально вашим.

На WaveSpeedAI найдите bytedance/seedream-v4 — это модель преобразования текста в изображение. Теперь введём подсказку для создания вашего собственного цифрового человека:

Half-length portrait of a young female digital human (22–28), 
natural makeup, white shirt and light gray blazer, 
looking at camera, soft studio light, 
plain light-gray background, ultra realistic, 4k, 85mm, f/2.8

Seedream Result

Вы можете настраивать такие элементы, как пол, одежда и фон, чтобы соответствовать вашим потребностям, создавая различные стили и настроения, чтобы ваш цифровой человек выглядел более привлекательным и соответствовал вашему бренду.

Генерация голоса

Теперь, когда ваш цифровой человек готов, следующий шаг — подготовить чёткий сценарий закадрового голоса, чтобы он мог естественно «говорить».

На WaveSpeedAI перейдите в раздел Категория > Преобразование текста в аудио, чтобы исследовать различные модели. Мы предлагаем модели для естественного озвучивания, клонирования голоса и даже композиции песен.

Text-to-Audio Category

В этом разделе мы используем minimax/speech-02-hd в качестве примера. Смело пробуйте другие модели, чтобы исследовать различные вокальные стили и эффекты.

Minimax Model

На Игровой площадке модели вы увидите ключевые параметры, такие как text и voice_id. Они работают вместе, формируя тон и тембр вашего цифрового человека, и вы можете их настраивать в зависимости от различных сценариев. Например, цифровой человек, которого я создал, женского пола, поэтому я могу выбрать первый вариант голоса — Wise_Woman.

Voice ID Selection

Ключевые параметры

Скорость

speed контролирует, насколько быстро говорит ваш цифровой человек. Выбирайте темп, подходящий для сцены — например, замедлитесь немного для представления продукта и ускорьте для непринуждённых разговоров. Значение 1 указывает на нормальную скорость.

Speed Parameter

Громкость

volume устанавливает громкость. Если ваш цифровой человек рассказывает сказку перед сном, вы можете снизить speed, чтобы замедлить повествование, и уменьшить volume для более мягкого звучания. Значение 1 — это громкость по умолчанию.

Volume Parameter

Высота тона

pitch регулирует тон голоса. Настройте это, чтобы голос звучал ярче и острее или глубже и полнее. Значение 0 — это высота тона по умолчанию.

Pitch Parameter

Эмоция

emotion контролирует стиль речи вашего цифрового человека. Выберите тон, соответствующий сцене — здесь мы выберем happy.

Emotion Parameter

Нормализация английского языка

Опция english_normalization, если она включена, делает числа и символы в английском языке естественными звучащими в речи. Без неё система может читать цифры по одной (например, «one two three» вместо «123») вместо «one hundred and twenty-three».

English Normalization

Частота дискретизации

sample_rate определяет качество аудио (разрешение). Если вы создаёте контент в стиле ASMR, стремитесь к более высокой частоте дискретизации для большего количества деталей. Для этого примера руководства это не критично — сохранение значения по умолчанию вполне подойдёт.

Sample Rate

Битрейт

bitrate определяет как качество, так и размер вашего аудиофайла. Он представляет количество бит, обрабатываемых в секунду. Более низкий битрейт создаёт меньший файл, но может потерять детали; более высокий битрейт приводит к большему файлу с более чистым звуком.

Bitrate

Канал

Параметр channel определяет количество аудиоканалов, которые будут созданы.

channel = 1 (моно): Весь звук смешивается в один канал — идеально для телефонного голоса, записей звонков или контента, сосредоточенного на диалоге, где пространственная ширина не требуется.
channel = 2 (стерео): Звук разделяется на левый и правый каналы, создавая ширину и ощущение пространства для более захватывающего многоуровневого опыта — идеально для музыки, фильмов, видеоигр и озвучивания видео, требующего более высокого качества прослушивания.

Channel Parameter

Формат

format позволяет выбрать тип выходного аудиофайла (подробности здесь опустим).

Format Parameter

Усиление языка

language_boost улучшает понимание моделью выбранного языка. Для этого руководства выберите English.

Language Boost

Генерация аудио

Далее вставьте ваш сценарий и нажмите Run, чтобы сгенерировать аудио!

Welcome to WaveSpeedAI’s Digital Human Tutorial. We’ll spark fresh ideas in AIGC and show you practical steps. Let’s unleash your creativity together!

Загрузите аудиофайл — это ключевой элемент, который позволит вашему цифровому человеку говорить позже!

Заставляем цифрового человека говорить

Наконец, волнующий момент: мы собираемся сделать так, чтобы ваш цифровой человек действительно говорил!

На WaveSpeedAI найдите wavespeed-ai/infinitetalk — нашу высококачественную модель, разработанную специально для озвучивания цифровых людей.

На Игровой площадке модели вы увидите два необходимых входа: audio и image.

audio: загрузите файл озвучивания, который вы только что загрузили.
image: загрузите изображение цифрового человека, которое вы создали ранее.

Infinitetalk Inputs

После нажатия Run цифровой человек реагирует на аудио и автоматически синхронизирует движения губ и выражение лица.

Параметр маски изображения

Далее давайте рассмотрим параметр mask_image. Он позволяет вам точно указать, какие части изображения должны быть анимированы.

Mask Image Parameter

На странице Create Mask точно определите область, поддающуюся анимации: отрегулируйте Brush Size, нарисуйте области, которые вы хотите анимировать, затем нажмите Use Mask, чтобы применить.

Вы также можете нажать Download Mask, чтобы сохранить mask_image в качестве шаблона для быстрого переиспользования в будущих проектах.

Create Mask

Дополнительная настройка

Если у вас есть дополнительные потребности — такие как указание позы, жесты рук или направление взгляда — добавьте более конкретные инструкции в prompt.

Для простого воспроизведения установите фиксированное значение seed. Это гарантирует, что случайность будет последовательной, и вы сможете воспроизвести тот же результат позже.

Seed Parameter

Наконец, нажмите Run, и давайте ждать финального результата!

Поздравляем! У вас есть собственный цифровой человек!

Готовы перейти к многопо́даговым сценам? WaveSpeedAI также предоставляет специальные модели для этого. Давайте исследуем их вместе!

Генерация с несколькими говорящими

На WaveSpeedAI найдите wavespeed-ai/infinitetalk/multi. Его шаги практически такие же, как и в модели для одного человека.

На этот раз добавьте два аудиофайла, затем загрузите изображение с двумя цифровыми людьми, чтобы оба персонажа могли произносить свои реплики.

Уделите особое внимание связи между аудио и позициями на изображении:

left_audio → человек слева на изображении
right_audio → человек справа на изображении

Внимательно проверьте соответствие; в противном случае голоса могут быть связаны с неправильными персонажами.

Multi Inputs

Режимы речи

В модели wavespeed-ai/infinitetalk/multi поддерживаются три режима речи:

left_right (слева направо)
right_left (справа налево)
meanwhile (одновременная речь)

Speaking Modes

Аналогично с этой моделью вы можете добавлять детали, которые вам нужны, через prompt, и установить seed для простого воспроизведения.

И вот так, у вас появилось двухперсонажное озвучивающее шоу!

Другие модели

На WaveSpeedAI мы также предоставляем вам множество дополнительных моделей:

wavespeed-ai/multitalk: Идеально подходит для «цифровых людей в стиле песен», позволяя многоголосные вокалы и более выразительные представления.
wavespeed-ai/infinitetalk/video-to-video: Добавьте озвучивание или повествование к существующим видео, чтобы визуальные эффекты и аудио оставались естественно синхронизированными.
wavespeed-ai/song-generation: Создавайте музыку с нуля, чтобы разработать пользовательский саундтрек и атмосферу для вашего контента.

Эти модели также предлагают уникальные впечатления, которые трудно воспроизвести на других платформах. Будьте смелы — попробуйте их и поделитесь своей работой! Вы можете разместить в разделе Inspiration, чтобы общаться и взаимодействовать с другими создателями!

Other Models

Заключительные мысли

Наш мир быстро меняется, и искусственный интеллект всё больше влияет на нашу повседневную жизнь. Придерживание старых методов только увеличивает затраты, замедляет прогресс и рискует упустить новые возможности.

Сейчас идеальное время, чтобы принять новые технологии и наслаждаться удобством и эффективностью, которые они предлагают. WaveSpeedAI предоставляет долгосрочную поддержку для создания контента с надёжной технологией и постоянно растущей экосистемой.

Где бы ни привела вас ваша творческая мысль, WaveSpeedAI будет здесь в качестве вашей надёжной основы и доверенного партнёра.