Ускорение инференции HunyuanVideo с ParaAttention: прорыв WaveSpeed

Ускорение инференса HunyuanVideo с помощью ParaAttention: прорыв WaveSpeed

В WaveSpeed мы постоянно расширяем границы возможного в генерации AI-медиа. Мы рады поделиться тем, как мы использовали ParaAttention и другие передовые методы, чтобы драматически ускорить инференс HunyuanVideo, сделав генерацию видео в реальном времени реальностью.

Проблема моделей генерации видео

Хотя модели генерации видео с открытым исходным кодом, такие как HunyuanVideo, CogVideoX и Mochi, продемонстрировали замечательный прогресс, скорость инференса остаётся значительным узким местом для практических приложений. Эти модели продемонстрировали замечательные возможности в генерации высокого качества видео из текстовых описаний. Однако, несмотря на эти достижения, область всё ещё сталкивается с существенными проблемами. Вычислительная сложность и требования к памяти этих моделей создают значительные препятствия для практических приложений, особенно при генерации видео высокого разрешения с множеством кадров. Это ограничило широкое внедрение и практическую полезность технологий генерации AI-видео в отраслях, где критична работа в реальном времени.

Наше решение: ParaAttention и многое другое

Параллелизм контекста и кэш первого блока

Наш подход начинается с параллелизма контекста и кэша первого блока (FBC), реализованного через нашу библиотеку ParaAttention. Эти методы позволяют нам:

Кэшировать выходы блоков трансформера: Кэшируя и переиспользуя эти выходы, когда остаточная разница достаточно мала, мы можем пропустить целые шаги денойзинга без ущерба качеству видео.
Параллелизировать инференс: Используя параллелизм контекста, мы можем эффективно масштабировать процесс инференса на несколько GPU.

Динамическое квантование FP8

Чтобы дополнительно оптимизировать скорость и использование памяти, мы реализовали динамическое квантование FP8. Этот метод снижает точность весов и активаций модели при сохранении точности, позволяя нам использовать 8-битные Tensor Cores GPU NVIDIA для ускоренных вычислений.

Результаты говорят сами за себя

Влияние наших оптимизаций ошеломительно:

Тип GPU	Количество GPU	Оптимизации	Время выполнения (сек)	Ускорение
NVIDIA L20	1	Базовая конфигурация	3675.71	1.00x
NVIDIA L20	1	FBCache	2271.06	1.62x
NVIDIA L20	2	FBCache + CP	1132.90	3.24x
NVIDIA L20	4	FBCache + CP	718.15	5.12x
NVIDIA L20	8	FBCache + CP	649.23	5.66x

Используя всего 8 GPU NVIDIA L20, мы достигли замечательного ускорения в 5.66x по сравнению с базовой конфигурацией. Это означает, что генерация видео из 129 кадров в разрешении 720p, которая ранее занимала почти час, теперь может быть произведена всего за чуть более 10 минут.

Преимущество WaveSpeed

То, что отличает наш подход, — это комбинация нескольких методов оптимизации в единое согласованное решение:

Комплексная оптимизация: Мы не полагаемся на один метод, а вместо этого комбинируем параллелизм контекста, кэш первого блока и квантование FP8 для максимального эффекта.
Масштабируемость: Наше решение масштабируется эффективно на несколько GPU, что делает его подходящим как для рабочих станций с одним GPU, так и для многопроцессорных серверных сред.
Сохранение качества: Несмотря на агрессивные оптимизации, мы сохраняем почти идеальное качество видео, обеспечивая, что скорость не достигается за счёт целостности контента.

Этот прорыв в скорости генерации видео открывает новые возможности для приложений в реальном времени в различных отраслях, от развлечений до рекламы и многого другого. В WaveSpeed мы обязуемся продолжать эту инновацию, изучая новые методы оптимизации и расширяя границы возможного в создании видео на основе AI.

Следите за нашими обновлениями о нашем пути к тому, чтобы сделать генерацию AI-видео быстрее, эффективнее и доступнее для всех.

Ускорение инференса HunyuanVideo с помощью ParaAttention: прорыв WaveSpeed

Проблема моделей генерации видео

Наше решение: ParaAttention и многое другое

Параллелизм контекста и кэш первого блока

Динамическое квантование FP8

Результаты говорят сами за себя

Преимущество WaveSpeed

Похожие статьи

Seedance 2.0 уже скоро: видеомодель нового поколения от ByteDance с встроенным аудио

Seedance 2.0 Полное руководство: Создание видео с несколькими модальностями

Seedance 2.0 vs Kling 3.0 vs Sora 2 vs Veo 3.1: Полное сравнение генерации видео

Обзор Vidu Q3: Сравнение с Sora 2, Wan 2.6, Seedance 1.5, Veo 3.1 и Grok Imagine Video

Grok Imagine Video против Sora 2, Veo 3.1, Seedance 1.5, WAN 2.5/2.6 и Vidu Q3: Полное сравнение

Чего ожидать от Kling 3.0: Технический обзор