Mempercepat Inferensi HunyuanVideo dengan ParaAttention: Terobosan WaveSpeed

Di WaveSpeed, kami terus-menerus mendorong batasan kemungkinan dalam generasi media AI. Kami senang berbagi bagaimana kami telah memanfaatkan ParaAttention dan teknik mutakhir lainnya untuk secara dramatis mempercepat inferensi HunyuanVideo, menjadikan generasi video real-time menjadi kenyataan.

Tantangan Model Generasi Video

Meskipun model generasi video sumber terbuka seperti HunyuanVideo, CogVideoX, dan Mochi telah menunjukkan kemajuan yang luar biasa, kecepatan inferensi tetap menjadi bottleneck yang signifikan untuk aplikasi dunia nyata. Model-model ini telah menunjukkan kemampuan luar biasa dalam menghasilkan video berkualitas tinggi dari deskripsi tekstual. Namun, meskipun pencapaian ini, bidang ini masih menghadapi tantangan substansial. Kompleksitas komputasi dan persyaratan memori dari model-model ini menimbulkan hambatan signifikan untuk aplikasi dunia nyata, terutama saat menghasilkan video beresolusi tinggi dengan banyak frame. Hal ini telah membatasi adopsi luas dan kegunaan praktis teknologi generasi video AI di industri di mana kinerja real-time sangat penting.

Solusi Kami: ParaAttention dan Lebih Banyak Lagi

Context Parallelism dan First Block Cache

Pendekatan kami dimulai dengan Context Parallelism dan First Block Cache (FBC), yang diimplementasikan melalui perpustakaan ParaAttention kami. Teknik-teknik ini memungkinkan kami untuk:

Cache transformer block outputs: Dengan melakukan cache dan menggunakan kembali output ini ketika perbedaan residual cukup kecil, kami dapat melewati seluruh langkah denoising tanpa mengorbankan kualitas video.
Paralelisasi inferensi: Menggunakan Context Parallelism, kami dapat menskalakan proses inferensi di berbagai GPU secara efisien.

Kuantisasi Dinamis FP8

Untuk lebih mengoptimalkan kecepatan dan penggunaan memori, kami telah mengimplementasikan kuantisasi dinamis FP8. Teknik ini mengurangi presisi bobot dan aktivasi model sambil mempertahankan akurasi, memungkinkan kami memanfaatkan Tensor Cores 8-bit GPU NVIDIA untuk komputasi yang dipercepat.

Hasil yang Berbicara Sendiri

Dampak dari optimisasi kami sangat dramatis:

Tipe GPU	Jumlah GPU	Optimisasi	Wall Time (s)	Percepatan
NVIDIA L20	1	Baseline	3675.71	1.00x
NVIDIA L20	1	FBCache	2271.06	1.62x
NVIDIA L20	2	FBCache + CP	1132.90	3.24x
NVIDIA L20	4	FBCache + CP	718.15	5.12x
NVIDIA L20	8	FBCache + CP	649.23	5.66x

Dengan hanya 8 GPU NVIDIA L20, kami telah mencapai percepatan luar biasa sebesar 5.66x dibandingkan konfigurasi baseline. Ini berarti menghasilkan video 129-frame, 720p yang sebelumnya membutuhkan waktu hampir satu jam kini dapat diproduksi dalam waktu sedikit lebih dari 10 menit.

Keunggulan WaveSpeed

Yang membedakan pendekatan kami adalah kombinasi dari berbagai teknik optimisasi dalam solusi yang kohesif:

Optimisasi komprehensif: Kami tidak bergantung pada satu teknik saja, tetapi menggabungkan Context Parallelism, First Block Cache, dan kuantisasi FP8 untuk efek maksimal.
Skalabilitas: Solusi kami dapat diskalakan secara efisien di berbagai GPU, menjadikannya cocok untuk lingkungan workstation GPU tunggal dan server multi-GPU.
Preservasi kualitas: Meskipun optimisasi agresif, kami mempertahankan kualitas video hampir sempurna, memastikan bahwa kecepatan tidak dicapai dengan mengorbankan integritas konten.

Terobosan dalam kecepatan generasi video ini membuka kemungkinan baru untuk aplikasi real-time di berbagai industri, dari hiburan hingga periklanan dan seterusnya. Di WaveSpeed, kami berkomitmen untuk terus berinovasi, mengeksplorasi teknik optimisasi baru, dan mendorong batasan dari apa yang mungkin dalam pembuatan video yang didorong AI.

Tetap terhubung untuk update lebih lanjut tentang perjalanan kami untuk membuat generasi video AI lebih cepat, lebih efisien, dan lebih mudah diakses oleh semua orang.