Ускорение инференции HunyuanVideo с ParaAttention: прорыв WaveSpeed

Ускорение инференции HunyuanVideo с ParaAttention: прорыв WaveSpeed

Ускорение инференса HunyuanVideo с помощью ParaAttention: прорыв WaveSpeed

В WaveSpeed мы постоянно расширяем границы возможного в генерации AI-медиа. Мы рады поделиться тем, как мы использовали ParaAttention и другие передовые методы, чтобы драматически ускорить инференс HunyuanVideo, сделав генерацию видео в реальном времени реальностью.

Проблема моделей генерации видео

Хотя модели генерации видео с открытым исходным кодом, такие как HunyuanVideo, CogVideoX и Mochi, продемонстрировали замечательный прогресс, скорость инференса остаётся значительным узким местом для практических приложений. Эти модели продемонстрировали замечательные возможности в генерации высокого качества видео из текстовых описаний. Однако, несмотря на эти достижения, область всё ещё сталкивается с существенными проблемами. Вычислительная сложность и требования к памяти этих моделей создают значительные препятствия для практических приложений, особенно при генерации видео высокого разрешения с множеством кадров. Это ограничило широкое внедрение и практическую полезность технологий генерации AI-видео в отраслях, где критична работа в реальном времени.

Наше решение: ParaAttention и многое другое

Параллелизм контекста и кэш первого блока

Наш подход начинается с параллелизма контекста и кэша первого блока (FBC), реализованного через нашу библиотеку ParaAttention. Эти методы позволяют нам:

  • Кэшировать выходы блоков трансформера: Кэшируя и переиспользуя эти выходы, когда остаточная разница достаточно мала, мы можем пропустить целые шаги денойзинга без ущерба качеству видео.
  • Параллелизировать инференс: Используя параллелизм контекста, мы можем эффективно масштабировать процесс инференса на несколько GPU.

Динамическое квантование FP8

Чтобы дополнительно оптимизировать скорость и использование памяти, мы реализовали динамическое квантование FP8. Этот метод снижает точность весов и активаций модели при сохранении точности, позволяя нам использовать 8-битные Tensor Cores GPU NVIDIA для ускоренных вычислений.

Результаты говорят сами за себя

Влияние наших оптимизаций ошеломительно:

Тип GPUКоличество GPUОптимизацииВремя выполнения (сек)Ускорение
NVIDIA L201Базовая конфигурация3675.711.00x
NVIDIA L201FBCache2271.061.62x
NVIDIA L202FBCache + CP1132.903.24x
NVIDIA L204FBCache + CP718.155.12x
NVIDIA L208FBCache + CP649.235.66x

Используя всего 8 GPU NVIDIA L20, мы достигли замечательного ускорения в 5.66x по сравнению с базовой конфигурацией. Это означает, что генерация видео из 129 кадров в разрешении 720p, которая ранее занимала почти час, теперь может быть произведена всего за чуть более 10 минут.

Преимущество WaveSpeed

То, что отличает наш подход, — это комбинация нескольких методов оптимизации в единое согласованное решение:

  • Комплексная оптимизация: Мы не полагаемся на один метод, а вместо этого комбинируем параллелизм контекста, кэш первого блока и квантование FP8 для максимального эффекта.
  • Масштабируемость: Наше решение масштабируется эффективно на несколько GPU, что делает его подходящим как для рабочих станций с одним GPU, так и для многопроцессорных серверных сред.
  • Сохранение качества: Несмотря на агрессивные оптимизации, мы сохраняем почти идеальное качество видео, обеспечивая, что скорость не достигается за счёт целостности контента.

Этот прорыв в скорости генерации видео открывает новые возможности для приложений в реальном времени в различных отраслях, от развлечений до рекламы и многого другого. В WaveSpeed мы обязуемся продолжать эту инновацию, изучая новые методы оптимизации и расширяя границы возможного в создании видео на основе AI.

Следите за нашими обновлениями о нашем пути к тому, чтобы сделать генерацию AI-видео быстрее, эффективнее и доступнее для всех.

Источник контента: fastest_hunyuan_video.md