ParaAttention을 통한 HunyuanVideo 추론 가속화: WaveSpeed의 혁신적 성과

ParaAttention을 통한 HunyuanVideo 추론 가속화: WaveSpeed의 혁신적 성과

ParaAttention을 통한 HunyuanVideo 추론 가속화: WaveSpeed의 획기적 성과

WaveSpeed에서는 AI 미디어 생성의 가능성을 지속적으로 확장하고 있습니다. ParaAttention과 최첨단 기술을 활용하여 HunyuanVideo 추론을 획기적으로 가속화하고 실시간 비디오 생성을 현실로 만든 방법을 공유하게 되어 기쁩니다.

비디오 생성 모델의 과제

HunyuanVideo, CogVideoX, Mochi와 같은 오픈소스 비디오 생성 모델들이 놀라운 진전을 이루었지만, 추론 속도는 실제 응용 분야에서 여전히 중대한 병목 현상 입니다. 이러한 모델들은 텍스트 설명으로부터 고품질 비디오를 생성하는 데 있어 뛰어난 능력을 보여주었습니다. 그러나 이러한 성과에도 불구하고 이 분야는 여전히 상당한 과제에 직면해 있습니다. 이러한 모델들의 계산 복잡도와 메모리 요구사항은 특히 고해상도 비디오를 많은 프레임으로 생성할 때 실제 응용에 큰 걸림돌이 됩니다. 이로 인해 실시간 성능이 중요한 산업에서 AI 비디오 생성 기술의 광범위한 채택과 실용성이 제한되고 있습니다.

우리의 솔루션: ParaAttention과 그 이상

컨텍스트 병렬 처리 및 첫 번째 블록 캐싱

우리의 접근 방식은 ParaAttention 라이브러리를 통해 구현된 컨텍스트 병렬 처리(Context Parallelism)와 첫 번째 블록 캐싱(First Block Cache, FBC)으로 시작됩니다. 이러한 기술들을 통해 우리는 다음을 달성할 수 있습니다:

  • 트랜스포머 블록 출력 캐싱: 이 출력들을 캐싱하고 나머지 차이가 충분히 작을 때 재사용함으로써, 비디오 품질을 손상시키지 않으면서 전체 노이즈 제거 단계를 건너뛸 수 있습니다.
  • 추론 병렬 처리: 컨텍스트 병렬 처리를 사용하여 여러 GPU에 걸쳐 추론 프로세스를 효율적으로 확장할 수 있습니다.

FP8 동적 양자화

속도와 메모리 사용을 더욱 최적화하기 위해 FP8 동적 양자화를 구현했습니다. 이 기술은 모델 가중치와 활성화의 정밀도를 줄이면서 정확도를 유지하여 NVIDIA GPU의 8비트 텐서 코어를 가속화된 연산에 활용할 수 있게 합니다.

성과가 말해주는 결과

우리의 최적화가 미치는 영향은 극적입니다:

GPU 유형GPU 개수최적화벽시계 시간(초)속도 향상
NVIDIA L201기준선3675.711.00x
NVIDIA L201FBCache2271.061.62x
NVIDIA L202FBCache + CP1132.903.24x
NVIDIA L204FBCache + CP718.155.12x
NVIDIA L208FBCache + CP649.235.66x

단 8개의 NVIDIA L20 GPU로 기준 구성 대비 놀라운 5.66배 속도 향상을 달성했습니다. 이는 이전에 거의 1시간이 걸리던 129프레임, 720p 비디오를 이제 겨우 10분 이상으로 생성할 수 있다는 것을 의미합니다.

WaveSpeed의 장점

우리의 접근 방식이 차별화되는 이유는 여러 최적화 기술을 통합 솔루션으로 결합했기 때문입니다:

  • 종합적인 최적화: 단일 기술에만 의존하지 않고 대신 컨텍스트 병렬 처리, 첫 번째 블록 캐싱, FP8 양자화를 결합하여 최대의 효과를 얻습니다.
  • 확장성: 우리의 솔루션은 여러 GPU에 걸쳐 효율적으로 확장되므로 단일 GPU 워크스테이션과 다중 GPU 서버 환경 모두에 적합합니다.
  • 품질 보존: 공격적인 최적화에도 불구하고 거의 완벽한 비디오 품질을 유지하여 속도 향상이 콘텐츠 무결성의 손실로 이어지지 않도록 합니다.

비디오 생성 속도의 이러한 획기적 성과는 엔터테인먼트에서 광고, 그 이상에 이르기까지 다양한 산업 분야에서 실시간 응용의 새로운 가능성을 열어줍니다. WaveSpeed는 이러한 혁신을 계속하고 새로운 최적화 기법을 탐색하며 AI 기반 비디오 생성의 가능성의 경계를 밀어붙이기 위해 최선을 다하고 있습니다.

AI 비디오 생성을 더 빠르고, 더 효율적으로, 더 많은 사람들이 접근할 수 있게 만들기 위한 우리의 여정에 대한 추가 업데이트를 기대해주세요.