使用 ParaAttention 加速 HunyuanVideo 推理：WaveSpeed 的突破

在 WaveSpeed，我们不断突破 AI 媒体生成的可能性边界。我们很高兴分享我們如何利用 ParaAttention 和其他尖端技術來大幅加速 HunyuanVideo 推理，使實時視頻生成成為現實。

視頻生成模型的挑戰

雖然開源視頻生成模型如 HunyuanVideo、CogVideoX 和 Mochi 已展現出顯著進展，但推理速度仍然是實際應用中的重大瓶頸。這些模型在從文字描述生成高質量視頻方面展現了卓越的能力。然而，儘管取得了這些成就，該領域仍然面臨著實質性的挑戰。這些模型的計算複雜性和內存需求對實際應用帶來了重大障礙，尤其是在生成高分辨率、多幀視頻時。** 這限制了 AI 視頻生成技術在需要實時性能的行業中的廣泛採用和實際應用。**

我們的解決方案：ParaAttention 及其他技術

上下文並行化和首塊緩存

我們的方法始於上下文並行化和首塊緩存 (FBC)，通過我們的 ParaAttention 庫實現。這些技術使我們能夠：

緩存變壓器塊輸出：通過緩存和重複使用這些輸出（當殘差足夠小時），我們可以跳過整個去噪步驟而不損害視頻質量。
並行化推理：使用上下文並行化，我們可以在多個 GPU 上有效地擴展推理過程。

FP8 動態量化

為進一步優化速度和內存使用，我們實現了 FP8 動態量化。此技術在保持準確度的同時降低模型權重和激活的精度，使我們能夠利用 NVIDIA GPU 的 8 位張量核心進行加速計算。

成果顯而易見

我們優化的影響是巨大的：

GPU 類型	GPU 數量	優化	壁時時間 (s)	加速
NVIDIA L20	1	基線	3675.71	1.00x
NVIDIA L20	1	FBCache	2271.06	1.62x
NVIDIA L20	2	FBCache + CP	1132.90	3.24x
NVIDIA L20	4	FBCache + CP	718.15	5.12x
NVIDIA L20	8	FBCache + CP	649.23	5.66x