Helios: Model Generasi Video Panjang Real-Time yang Menghindari Semua Jalan Pintas

Saya menyimpan daftar mental tentang hal-hal yang saya anggap dibutuhkan model generasi video: KV-cache untuk kecepatan, sparse attention untuk memori, keyframe sampling untuk mencegah drift. Helios dari PKU-YuanGroup membuang semua itu — namun tetap mencapai 19,5 FPS pada satu H100. Kontradiksi itulah yang membuat saya berhenti scroll.

Saya Dora. Beberapa hari terakhir saya menghabiskan waktu membaca makalah Helios dan repositorinya, menjalankan apa yang bisa saya jalankan secara lokal, dan mencoba memahami mengapa pendekatan ini berhasil padahal kebijaksanaan konvensional mengatakan seharusnya tidak. Ini bukan ulasan benchmark. Ini lebih seperti catatan dari seseorang yang sudah cukup sering terbakar oleh klaim “revolusioner” hingga ingin melihat buktinya sendiri.

Apa Itu Helios Sebenarnya

Helios adalah model generasi video autoregresif yang menghasilkan 33 frame per chunk, merangkai chunk-chunk tersebut untuk membuat video berdurasi menit — hingga 1.452 frame pada 24 FPS, yang setara dengan sekitar 60 detik footage berkesinambungan.

Itu saja tidak mengejutkan. Yang tidak biasa adalah daftar hal-hal yang tidak digunakannya:

Tanpa KV-cache
Tanpa causal masking
Tanpa sparse atau linear attention
Tanpa TinyVAE
Tanpa progressive noise schedule
Tanpa kuantisasi
Tanpa self-forcing, error-bank, atau keyframe sampling (toolkit anti-drift standar)

Membaca daftar itu terasa seperti seseorang mendeskripsikan mobil yang berjalan tanpa mesin. Setiap teknik tersebut ada karena generasi video itu mahal, rakus memori, dan rentan terhadap penurunan kualitas pada urutan panjang. Helios melewati semuanya dan tetap berhasil melakukan inferensi real-time. Pertanyaannya bukan apakah ini berhasil — demonya sudah ada — tetapi bagaimana caranya.

Pipeline Pelatihan Tiga Tahap

Helios hadir dalam tiga varian model, masing-masing sesuai dengan tahap pelatihan. Memahami tahapannya membantu menjelaskan logika desainnya.

Tahap 1: Helios-Base

Fondasi. Di sinilah inovasi arsitektur inti berada:

Unified History Injection — model menggunakan kondisi pada chunk sebelumnya tanpa penalti akumulasi error yang biasa
Easy Anti-Drifting — strategi saat pelatihan yang menggantikan hack saat inferensi (self-forcing, error-bank) yang biasa diandalkan oleh sebagian besar model video autoregresif
Multi-Term Memory Patchification — pendekatan efisien memori untuk menangani konteks temporal yang panjang

Helios-Base menggunakan v-prediction dengan classifier-free guidance standar. Ini menghasilkan kualitas mentah tertinggi dari ketiga varian, tetapi juga paling berat saat inferensi — 50 langkah difusi per chunk.

Tahap 2: Helios-Mid

Checkpoint perantara yang memperkenalkan Pyramid Unified Predictor Corrector untuk kompresi token. Di sinilah model mulai menukar kualitas yang marjinal untuk keuntungan kecepatan yang berarti. Model ini menggunakan CFG-Zero*, yang menghilangkan kebutuhan evaluasi model tanpa syarat selama inferensi.

Jika Anda pernah bekerja dengan model difusi, Anda tahu bahwa CFG biasanya menggandakan komputasi karena Anda menjalankan model dua kali per langkah — sekali dengan prompt, sekali tanpa. Menghilangkan persyaratan itu adalah keuntungan efisiensi yang signifikan.

Tahap 3: Helios-Distilled

Varian terakhir menggunakan Adversarial Hierarchical Distillation untuk menyusutkan 50 langkah difusi menjadi 3. Model ini beralih dari v-prediction ke x0-prediction dengan scheduler khusus (HeliosDMDScheduler) dan sepenuhnya menghapus persyaratan CFG.

Inilah varian yang mencapai 19,5 FPS. Tiga langkah, tanpa CFG, tanpa trik akselerasi — hanya model yang telah dilatih untuk mendapatkan hasil yang benar sejak pertama kali.

Mengapa Pendekatan “Tanpa Jalan Pintas” Itu Penting

Sebagian besar pekerjaan akselerasi dalam generasi video bersifat aditif. Anda membangun model, terlalu lambat, jadi Anda menambahkan KV-cache. Memori masih terlalu banyak, jadi Anda menambahkan sparse attention. Kualitas drift pada urutan panjang, jadi Anda menambahkan keyframe sampling. Setiap perbaikan memperkenalkan mode kegagalan dan kompleksitasnya sendiri.

Helios mengambil jalur yang berlawanan: buat model dasar cukup efisien sehingga Anda tidak memerlukan tambahan-tambahan itu. Pipeline pelatihan melakukan pekerjaan berat yang biasanya ditangani oleh trik saat inferensi.

Ada konsekuensi praktis di sini yang mudah terlewatkan. Lebih sedikit bagian yang bergerak berarti lebih sedikit hal yang bisa rusak. Jika Anda pernah men-debug masalah korupsi KV-cache atau melihat sparse attention menciptakan artefak pada batas frame tertentu, Anda tahu pajak yang dikenakan sistem-sistem tersebut. Helios tidak membayar pajak itu.

Kisah memori juga sama mencoloknya. Makalah ini mengklaim mereka dapat memasukkan empat model 14 miliar parameter dalam 80 GB memori GPU selama pelatihan, menggunakan ukuran batch skala image-diffusion. Itu adalah kompresi agresif dari apa yang biasanya merupakan jejak sumber daya yang sangat besar.

Apa yang Bisa Dilakukannya

Helios mendukung empat mode generasi di ketiga variannya:

Text-to-Video — masukkan prompt, keluarkan video
Image-to-Video — frame pertama ditambah prompt
Video-to-Video — transfer gaya, re-timing, modifikasi
Mode Interaktif — penyempurnaan iteratif

Matematika frame-nya spesifik: Anda bekerja dalam kelipatan 33 frame per chunk. Ingin sekitar 30 detik? Itu 22 chunk = 726 frame. Satu menit penuh? 44 chunk = 1.452 frame. Batas chunk adalah tempat terjadinya handoff autoregresif, dan dari demo yang saya lihat, sambungannya sangat bersih.

Poin terakhir itu layak ditekankan. Model video autoregresif biasanya menunjukkan perilaku terburuknya di batas chunk — gerakan tersendat, pergeseran warna, drift objek. Strategi pelatihan “Easy Anti-Drifting” tampaknya benar-benar mengatasi hal ini, meskipun saya ingin melihat lebih banyak kasus uji yang beragam sebelum menyatakan masalah ini terpecahkan.

Integrasi dan Ekosistem

Helios sudah mendukung beberapa backend inferensi:

Hugging Face Diffusers — integrasi ModularPipeline
vLLM-Omni — disaggregated serving dengan arsitektur graf berbasis tahap
SGLang-Diffusion — unified pipeline dengan kernel yang dioptimalkan
Ascend NPU — dukungan hardware Day-0 (~10 FPS pada Ascend)

Integrasi Diffusers adalah yang paling mudah diakses. Jalur vLLM-Omni menarik untuk deployment produksi di mana Anda ingin memisahkan tahap prefill dan decode di hardware yang berbeda. SGLang-Diffusion terasa seperti opsi yang berorientasi masa depan — dirancang untuk jenis serving yang di-batch dan di-pipeline yang membuat aplikasi real-time dapat dilakukan.

Dukungan Ascend NPU adalah sinyal strategis. Dukungan Day-0 untuk hardware non-NVIDIA menunjukkan bahwa ini bukan renungan belaka. Pada ~10 FPS di Ascend, lebih lambat dari jalur H100 tetapi masih dapat digunakan untuk banyak aplikasi.

HeliosBench

Tim ini membangun benchmark mereka sendiri — HeliosBench — yang dirancang khusus untuk mengevaluasi generasi video panjang secara real-time. Ini patut dicatat karena sebagian besar benchmark video yang ada berfokus pada klip pendek (4–16 detik) dan tidak menangkap mode kegagalan yang muncul pada panjang skala menit: temporal drift, degradasi gerakan, kegagalan persistensi objek.

Memiliki benchmark yang dibuat khusus tidak menjamin objektivitas, tetapi setidaknya berarti mereka mengukur hal yang benar. Saya ingin melihat evaluasi independen menggunakan HeliosBench untuk memvalidasi metodologinya.

Hal-hal yang Masih Saya Pikirkan

Kualitas di titik ekstrem. Desain chunk 33 frame itu elegan, tetapi 44 langkah autoregresif berturut-turut adalah banyak peluang untuk akumulasi error. Demo-nya terlihat bersih, tapi demo selalu terlihat bersih. Saya ingin melihat prompt yang menantang — gerakan kamera yang kompleks, banyak objek yang berinteraksi, perubahan pencahayaan dramatis sepanjang satu menit penuh.

Pertukaran distilasi. Beralih dari 50 langkah ke 3 itu agresif. Model yang didistilasi umumnya mengorbankan keragaman dan detail halus demi kecepatan. Varian Helios-Base ada karena alasan — ketika kualitas lebih penting dari kecepatan, Anda membayar 17x komputasinya. Itu kesenjangan yang sangat lebar antara dua titik operasi tersebut.

Kematangan ekosistem. Model ini open-source (Apache 2.0), yang bagus. Tetapi model video open-source membutuhkan tooling komunitas untuk menjadi praktis — node ComfyUI, skrip pelatihan untuk fine-tuning, dukungan LoRA. Ekosistem itu membutuhkan waktu untuk berkembang, dan saat ini Helios masih sangat baru.

Persyaratan hardware. Real-time pada H100 itu mengesankan. Tetapi H100 tidak sedang menganggur di meja kebanyakan orang. Pertanyaan yang lebih relevan bagi banyak pengguna adalah: bagaimana pengalamannya pada 4090? Pada A100? Makalah ini jelas tentang performa H100 dan Ascend — kurang jelas tentang ekor panjang hardware lainnya.

Mengapa Ini Menonjol

Saya telah menyaksikan banyak pengumuman generasi video selama setahun terakhir. Sebagian besar bersifat inkremental: skor FID yang lebih baik, klip yang sedikit lebih panjang, inferensi yang sedikit lebih cepat. Helios terasa berbeda karena menantang asumsi yang tidak saya sadari telah saya internalisasi — bahwa generasi video panjang secara real-time memerlukan tumpukan optimasi inferensi yang ditumpuk satu di atas yang lain.

Jawaban yang diusulkan Helios adalah: bagaimana jika Anda cukup melatih modelnya dengan lebih baik? Dorong kompleksitasnya ke dalam pipeline pelatihan, bukan ke stack inferensi. Buat model secara inheren efisien daripada menambahkan efisiensi setelah fakta.

Apakah pendekatan itu dapat diskalakan, digeneralisasi, dan bertahan dari kontak dengan beban kerja produksi adalah pertanyaan terbuka. Tetapi arahnya menarik. Lebih sedikit bagian yang bergerak, arsitektur yang lebih bersih, dan angka performa yang berbicara sendiri.

Kode dan bobot tersedia di GitHub. Apache 2.0. Jika Anda memiliki H100 dan waktu satu sore, ini layak untuk dicoba.

Apa Itu Helios Sebenarnya

Pipeline Pelatihan Tiga Tahap

Tahap 1: Helios-Base

Tahap 2: Helios-Mid

Tahap 3: Helios-Distilled

Mengapa Pendekatan “Tanpa Jalan Pintas” Itu Penting

Apa yang Bisa Dilakukannya

Integrasi dan Ekosistem

HeliosBench

Hal-hal yang Masih Saya Pikirkan

Mengapa Ini Menonjol

Artikel Terkait

Memperkenalkan PixVerse V6 Extend di WaveSpeedAI

Memperkenalkan PixVerse V6 Image-to-Video di WaveSpeedAI

Memperkenalkan PixVerse V6 Text-to-Video di WaveSpeedAI

Memperkenalkan PixVerse V6 Transition di WaveSpeedAI

PixVerse V6 Telah Hadir: Kontrol Kamera, Audio Native, dan Pembuatan Video Multi-Shot

daVinci-MagiHuman: Model Open-Source yang Mengalahkan Semua Generator Digital Human