Представляем Alibaba WAN 2.7 Reference To Video на WaveSpeedAI

Wan 2.7 Reference-to-Video: Создание персонажно-консистентного ИИ-видео из множества референсов

Сохранение идентичности персонажей в ИИ-сгенерированных видеоклипах было одной из самых сложных задач в генеративном видео — до сегодняшнего дня. Wan 2.7 Reference-to-Video от Tongyi Lab компании Alibaba решает эту проблему, позволяя загружать несколько референсных видео и изображений, а затем генерировать новые сцены, где персонажи, реквизит и визуальные стили остаются идеально последовательными. Доступная на WaveSpeedAI без холодных стартов и с доступным ценообразованием по оплате за использование, эта модель открывает производственное качество генерации видео с несколькими персонажами через простой REST API.

Независимо от того, являетесь ли вы кинорежиссёром, предварительно визуализирующим сложные сцены, брендом, создающим рекламные кампании со спикером, или контент-мейкером, выстраивающим нарративы с несколькими кадрами — Wan 2.7 Reference-to-Video устраняет проблему непоследовательности, которая преследовала рабочие процессы ИИ-видео.

Как работает Wan 2.7 Reference-to-Video

Wan 2.7 Reference-to-Video построен на архитектуре Diffusion Transformer (DiT) компании Alibaba с механизмом Full Attention, который одновременно обрабатывает пространственные и временные связи по всей видеопоследовательности. Именно поэтому идентичность персонажей остаётся стабильной на протяжении всего клипа — модель не просто генерирует кадр за кадром, она понимает всю последовательность целиком.

Рабочий процесс прост:

Загрузите референсные видео — предоставьте одно или несколько исходных видео с персонажами или визуальными элементами, которые необходимо сохранить.
Добавьте опциональное референсное изображение — дополните статичным изображением для дополнительного визуального руководства.
Напишите промпт — опишите новую сцену на естественном языке, ссылаясь на персонажей по позиции (например, «Персонаж из Видео 1 идёт через сад, пока Видео 2 наблюдает со скамейки»).
Генерируйте — модель создаёт новое видео, помещая Referenced персонажей в описанную сцену с сохранённой идентичностью, стилем и связным движением.

Модель поддерживает до 5 комбинированных референсных входных данных (видео и изображения вместе), вывод в разрешении 720p или 1080p, соотношения сторон включая 16:9, а также длительность клипов 5, 10 или 15 секунд. Уникальная система индексации промптов позволяет точно контролировать, какой референс появляется где — видео нумеруются сначала (Видео 1, Видео 2), затем изображения продолжают последовательность (Изображение 3, Изображение 4).

Ключевые возможности Wan 2.7 Reference-to-Video

Поддержка множества видео-референсов — объединяйте персонажей, объекты или визуальные элементы из нескольких исходных видео в единую связную сцену. Ни одна другая модель этого класса не обрабатывает многоисточниковые видео-референсы так чисто.
Заблокированная идентичность персонажей — архитектура Full Attention сохраняет черты лица, одежду, пропорции тела и стилистические детали на протяжении сгенерированного клипа без дрейфа идентичности, характерного для старых диффузионных видеомоделей.
Индексация промптов для точного контроля — ссылайтесь на конкретных персонажей с помощью синтаксиса «Видео 1», «Видео 2», «Изображение 3» в вашем промпте. Это даёт вам режиссёрский контроль над тем, кто что делает в генерируемой сцене.
Поддержка негативных промптов — указывайте элементы, которые следует исключить из результата, предотвращая нежелательное визуальное смешение между источниками референсов.
Автоматическое расширение промптов — включите расширение промптов, чтобы модель дополняла короткие промпты дополнительными деталями, создавая более богатый результат без ручного инженеринга промптов.
Вывод в 1080p — генерируйте в разрешении Full HD для производственных результатов или используйте 720p для более быстрых итераций в творческом процессе.
До 15 секунд на клип — генерируйте более длинные сцены, которые дают персонажам время двигаться, взаимодействовать и выражать эмоции — достаточно для коротких роликов в социальных сетях и рекламных нарезок.

Лучшие варианты использования Wan 2.7 Reference-to-Video

Сторителлинг с несколькими персонажами и короткометражные фильмы

Помещайте персонажей из отдельных референсных видео в общие сцены, которые они никогда не снимали вместе. Кинорежиссёр может снимать актёров по отдельности, а затем использовать Wan 2.7 R2V для генерации сцен взаимодействия — персонажи сидят вместе, идут рядом или ведут беседу в новой обстановке. Это значительно снижает производственные затраты для инди-проектов и превизуализации.

Видеокампании с брендовым спикером

Маркетинговые команды могут генерировать десятки вариаций видео в стиле бренда с последовательным спикером или маскотом. Загрузите референсное видео вашего брендового персонажа один раз, затем генерируйте его в разных обстановках — на кухне, в офисе, на улице — сохраняя идеальную визуальную идентичность на протяжении всей кампании. Повторные съёмки не требуются.

Контент для социальных сетей в масштабе

Контент-мейкеры могут производить персонажно-консистентное короткое видео в больших объёмах. Возьмите референсное видео повторяющегося персонажа или персоны, опишите новые сценарии и генерируйте свежий контент ежедневно. Сохранение идентичности гарантирует, что ваша аудитория узнаёт персонажа в каждой публикации, формируя консистентность бренда без производственных накладных расходов.

Демонстрации продуктов и объясняющие видео

Объединяйте референсное видео ведущего с изображениями продукта для создания отполированных демо-видео. Ведущий сохраняет свой внешний вид и стиль, взаимодействуя с продуктами в новых контекстах — идеально для листингов e-commerce, запусков продуктов и обучающего контента.

Творческая концептуализация и раскадровка

Режиссёры и творческие команды могут быстро прототипировать сцены с несколькими персонажами до начала полного производства. Генерируйте 10 вариаций сцены с разными мизансценами, освещением или взаимодействиями персонажей за минуты. Используйте 720p для быстрых итераций, затем рендерите финальный концепт в 1080p.

Фанатский контент и кроссоверы персонажей

Объединяйте визуальные элементы из разных источников в единую связную сцену. Персонажи из разных референсных видео могут естественно взаимодействовать, открывая творческие возможности для фан-арта, мэшапов и экспериментального визуального сторителлинга.

Обучающий и образовательный контент

Генерируйте последовательный обучающий видеоконтент под руководством инструктора для множества уроков. Загрузите референс инструктора один раз, затем размещайте его в разных образовательных обстановках — у доски, в лаборатории, на улице — сохраняя визуальную непрерывность на протяжении всей серии курсов.

Цены и доступ к API Wan 2.7 Reference-to-Video

WaveSpeedAI предлагает Wan 2.7 Reference-to-Video с прозрачным ценообразованием за генерацию:

Длительность	720p	1080p
5 секунд	$1.00	$1.60
10 секунд	$1.50	$2.40
15 секунд	$2.00	$3.20

Рендер в 1080p стоит в 1,6× дороже тарифа 720p. Цены включают фиксированные накладные расходы на обработку референсных видео.

Начать работу займёт минуты. Установите WaveSpeed SDK и сделайте первый вызов API:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "The character in Video 1 walks through a sunlit garden, smiling and looking at the flowers",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAI запускает Wan 2.7 Reference-to-Video без холодных стартов — ваш первый запрос выполняется так же быстро, как сотый. Никаких задержек подготовки GPU, никаких платежей за простой вычислений. Вы платите только за то, что генерируете.

Попробуйте Wan 2.7 Reference-to-Video сейчас →

Советы для достижения лучших результатов с Wan 2.7 Reference-to-Video

Используйте чёткие, отчётливые референсные видео. Чем визуально отличимы друг от друга референсные видео, тем лучше модель сохраняет идентичность каждого персонажа в результате. Избегайте референсов с похожими по внешности субъектами.
Ссылайтесь на персонажей по индексу в промпте. Всегда используйте «Видео 1», «Видео 2» и т.д., чтобы указать, какой персонаж что делает. Нумерация следует порядку загрузки для видео, затем продолжается для референсных изображений.
Начинайте с 720p для итераций. Тестируйте композицию сцены, формулировки промптов и позиционирование персонажей в 720p, прежде чем переходить к финальному рендеру в 1080p. Это экономит и время, и деньги.
Используйте негативные промпты для предотвращения смешения. Если вы замечаете проникновение визуальных стилей между источниками референсов, добавьте негативный промпт для исключения конкретных нежелательных элементов.
Включайте расширение промптов для коротких промптов. Если ваш промпт краткий или лишён деталей сцены, включение расширения промптов позволяет модели автоматически добавлять кинематографические детали.
Держите референсные видео короткими и сфокусированными. Референсные клипы, чётко показывающие субъект, который вы хотите сохранить, дадут лучшую консистентность идентичности, чем длинные, разнообразные кадры.

Часто задаваемые вопросы о Wan 2.7 Reference-to-Video

Что такое Wan 2.7 Reference-to-Video?

Wan 2.7 Reference-to-Video — это модель генерации ИИ-видео от Alibaba, которая создаёт новые видеосцены, сохраняя идентичность, внешний вид и стиль персонажей из ваших референсных видео и изображений.

Сколько стоит Wan 2.7 Reference-to-Video?

Цены начинаются от $1,00 за 5-секундный клип в 720p, масштабируясь до $3,20 за 15-секундное видео в 1080p. Без абонентской платы — вы платите за каждую генерацию на WaveSpeedAI.

Могу ли я использовать Wan 2.7 Reference-to-Video через API?

Да. Wan 2.7 Reference-to-Video доступен как REST API на WaveSpeedAI без холодных стартов, с ценообразованием по оплате за использование и Python SDK WaveSpeed для лёгкой интеграции.

Сколько референсных видео можно использовать одновременно?

Вы можете предоставить до 5 комбинированных референсных входных данных (видео и изображения вместе). Каждый референс последовательно нумеруется в вашем промпте для точного контроля над тем, какой персонаж появляется где.

Чем Wan 2.7 Reference-to-Video отличается от Wan 2.7 Image-to-Video?

Wan 2.7 Image-to-Video анимирует одно референсное изображение в видео. Reference-to-Video принимает несколько видео-референсов, сохраняя идентичность из разных источников и позволяя создавать сцены с несколькими персонажами с последовательной идентичностью — принципиально иная возможность для производственных рабочих процессов.

Начните создавать персонажно-консистентное видео с Wan 2.7

Wan 2.7 Reference-to-Video привносит возможность, которая ранее была недостижима в ИИ-генерации видео: надёжное сохранение идентичности нескольких персонажей из видео-референсов. В сочетании с мгновенным инференсом WaveSpeedAI и простым API он готов для производственных рабочих процессов уже сегодня.

Исследуйте полный набор Wan 2.7 на WaveSpeedAI — включая Text-to-Video, Image-to-Video, Video Edit и Video Extend.

Попробуйте Wan 2.7 Reference-to-Video на WaveSpeedAI →