FLUX.1-dev 이미지 생성 가속화를 위한 WaveSpeed의 솔루션
WaveSpeed의 FLUX.1-dev 이미지 생성 가속화 솔루션
AI 기반 이미지 생성의 끊임없이 진화하는 환경에서 WaveSpeed는 계산 효율성과 시각적 우수성 사이의 격차를 좁히는 혁신적인 솔루션을 개척하고 있습니다. 우리의 최신 성과는 FLUX.1-dev 모델을 최적화하여 추론 속도를 크게 향상시키면서도 알려진 고품질 출력을 유지하는 것입니다.
AI 이미지 생성의 현재 환경
AI 이미지 생성 모델은 빠르게 발전했으며, FLUX.1-dev 및 SD3.5-large와 같은 오픈소스 모델이 선두를 이끌고 있습니다. 이러한 오픈소스 모델은 텍스트 프롬프트로부터 고품질 이미지를 생성하는 인상적인 능력을 보여줍니다. 하지만 이러한 모델의 추론 속도는 여전히 실시간 애플리케이션 및 배포를 위한 병목 현상 입니다.
WaveSpeed의 다층적 최적화 접근 방식
AI 이미지 생성 모델은 빠르게 발전했으며, FLUX.1-dev와 SD3.5-large와 같은 오픈소스 모델이 선두를 이끌고 있습니다. 이러한 오픈소스 모델은 텍스트 프롬프트로부터 고품질 이미지를 생성하는 인상적인 능력을 보여줍니다. 하지만 이러한 모델의 추론 속도는 여전히 실시간 애플리케이션 및 배포를 위한 병목 현상입니다.
컨텍스트 병렬화 및 첫 번째 블록 캐시
우리의 솔루션은 ParaAttention 라이브러리를 통해 구현된 컨텍스트 병렬화 및 첫 번째 블록 캐시(FBC)로 시작됩니다. 이러한 기술을 통해 우리는 다음을 수행할 수 있습니다:
트랜스포머 블록 출력 캐싱: 이러한 출력을 캐싱하고 잔차 차이가 충분히 작을 때 재사용함으로써 이미지 품질을 손상시키지 않으면서 전체 디노이징 단계를 건너뜀. 추론 병렬화: 컨텍스트 병렬화를 사용하여 여러 GPU에서 효율적으로 추론 프로세스를 확장.
FP8 동적 양자화
속도와 메모리 사용량을 추가로 최적화하기 위해 FP8 동적 양자화를 구현했습니다. 이 기술은 정확도를 유지하면서 모델 가중치와 활성화의 정밀도를 줄여 가속화된 계산을 위해 NVIDIA GPU의 8비트 Tensor 코어를 활용할 수 있게 합니다.
눈에 띄는 결과 및 성능 지표
우리의 최적화의 영향은 dramatic합니다:
| GPU 유형 | GPU 개수 | 최적화 | 벽시계 시간(초) | 속도 향상 |
|---|---|---|---|---|
| NVIDIA L20 | 1 | 기본 | 26.36 | 1.00x |
| NVIDIA L20 | 1 | FBCache(rdt=0.08) | 17.01 | 1.55x |
| NVIDIA L20 | 1 | FP8 DQ | 13.40 | 1.97x |
| NVIDIA L20 | 1 | FBCache(rdt=0.12) + FP8 DQ | 7.56 | 3.49x |
| NVIDIA L20 | 2 | FBCache(rdt=0.12) + FP8 DQ + CP | 4.92 | 5.36x |
| NVIDIA L20 | 4 | FBCache(rdt=0.12) + FP8 DQ + CP | 3.90 | 6.75x |
단 4개의 NVIDIA L20 GPU로 기본 구성 대비 놀라운 6.75배의 속도 향상을 달성했습니다. 이는 이전에 26초가 걸렸던 1024x1024 이미지를 이제 약 4초 만에 생성할 수 있다는 의미입니다.
WaveSpeed의 접근 방식을 차별화하는 요소
전체적 최적화 전략: 컨텍스트 병렬화, 첫 번째 블록 캐시, FP8 양자화 등 여러 기술을 결합하여 최대 성능 향상을 달성합니다. 적응형 확장성: 우리의 솔루션은 단일 GPU 설정부터 다중 GPU 환경까지 다양한 GPU 구성에 효율적으로 확장되어 다양한 운영 필요에 유연성을 보장합니다. 품질 중심 최적화: 공격적인 속도 향상에도 불구하고 거의 완벽한 이미지 품질을 유지하여 성능 개선이 생성된 콘텐츠의 시각적 무결성을 손상시키지 않도록 합니다.
WaveSpeed에서는 이러한 혁신을 계속하고, 새로운 최적화 기술을 탐색하며, AI 기반 이미지 생성 분야에서 가능한 것의 경계를 계속 확장하기 위해 최선을 다하고 있습니다.



