Ускорение инференции HunyuanVideo с ParaAttention: прорыв WaveSpeed
Ускорение инференса HunyuanVideo с помощью ParaAttention: прорыв WaveSpeed
В WaveSpeed мы постоянно расширяем границы возможного в генерации AI-медиа. Мы рады поделиться тем, как мы использовали ParaAttention и другие передовые методы, чтобы драматически ускорить инференс HunyuanVideo, сделав генерацию видео в реальном времени реальностью.
Проблема моделей генерации видео
Хотя модели генерации видео с открытым исходным кодом, такие как HunyuanVideo, CogVideoX и Mochi, продемонстрировали замечательный прогресс, скорость инференса остаётся значительным узким местом для практических приложений. Эти модели продемонстрировали замечательные возможности в генерации высокого качества видео из текстовых описаний. Однако, несмотря на эти достижения, область всё ещё сталкивается с существенными проблемами. Вычислительная сложность и требования к памяти этих моделей создают значительные препятствия для практических приложений, особенно при генерации видео высокого разрешения с множеством кадров. Это ограничило широкое внедрение и практическую полезность технологий генерации AI-видео в отраслях, где критична работа в реальном времени.
Наше решение: ParaAttention и многое другое
Параллелизм контекста и кэш первого блока
Наш подход начинается с параллелизма контекста и кэша первого блока (FBC), реализованного через нашу библиотеку ParaAttention. Эти методы позволяют нам:
- Кэшировать выходы блоков трансформера: Кэшируя и переиспользуя эти выходы, когда остаточная разница достаточно мала, мы можем пропустить целые шаги денойзинга без ущерба качеству видео.
- Параллелизировать инференс: Используя параллелизм контекста, мы можем эффективно масштабировать процесс инференса на несколько GPU.
Динамическое квантование FP8
Чтобы дополнительно оптимизировать скорость и использование памяти, мы реализовали динамическое квантование FP8. Этот метод снижает точность весов и активаций модели при сохранении точности, позволяя нам использовать 8-битные Tensor Cores GPU NVIDIA для ускоренных вычислений.
Результаты говорят сами за себя
Влияние наших оптимизаций ошеломительно:
| Тип GPU | Количество GPU | Оптимизации | Время выполнения (сек) | Ускорение |
|---|---|---|---|---|
| NVIDIA L20 | 1 | Базовая конфигурация | 3675.71 | 1.00x |
| NVIDIA L20 | 1 | FBCache | 2271.06 | 1.62x |
| NVIDIA L20 | 2 | FBCache + CP | 1132.90 | 3.24x |
| NVIDIA L20 | 4 | FBCache + CP | 718.15 | 5.12x |
| NVIDIA L20 | 8 | FBCache + CP | 649.23 | 5.66x |
Используя всего 8 GPU NVIDIA L20, мы достигли замечательного ускорения в 5.66x по сравнению с базовой конфигурацией. Это означает, что генерация видео из 129 кадров в разрешении 720p, которая ранее занимала почти час, теперь может быть произведена всего за чуть более 10 минут.
Преимущество WaveSpeed
То, что отличает наш подход, — это комбинация нескольких методов оптимизации в единое согласованное решение:
- Комплексная оптимизация: Мы не полагаемся на один метод, а вместо этого комбинируем параллелизм контекста, кэш первого блока и квантование FP8 для максимального эффекта.
- Масштабируемость: Наше решение масштабируется эффективно на несколько GPU, что делает его подходящим как для рабочих станций с одним GPU, так и для многопроцессорных серверных сред.
- Сохранение качества: Несмотря на агрессивные оптимизации, мы сохраняем почти идеальное качество видео, обеспечивая, что скорость не достигается за счёт целостности контента.
Этот прорыв в скорости генерации видео открывает новые возможности для приложений в реальном времени в различных отраслях, от развлечений до рекламы и многого другого. В WaveSpeed мы обязуемся продолжать эту инновацию, изучая новые методы оптимизации и расширяя границы возможного в создании видео на основе AI.
Следите за нашими обновлениями о нашем пути к тому, чтобы сделать генерацию AI-видео быстрее, эффективнее и доступнее для всех.
Источник контента: fastest_hunyuan_video.md
