Helios: модель генерации длинных видео в реальном времени, которая не использует никаких упрощений

У меня есть мысленный список вещей, которые, как я считаю, необходимы моделям генерации видео: KV-кэш для скорости, разреженное внимание для памяти, сэмплирование ключевых кадров для предотвращения дрейфа. Helios от PKU-YuanGroup отбрасывает всё это — и при этом достигает 19,5 FPS на одном H100. Именно это противоречие заставило меня остановиться.

Меня зовут Дора. Последние несколько дней я читала статью о Helios и репозиторий, запускала что могла локально и пыталась понять, почему этот подход работает, когда общепринятые представления говорят, что не должен. Это не обзор бенчмарков. Скорее — набор заметок от человека, которого достаточно раз подводили «революционные» заявления, чтобы теперь требовать доказательств.

Что такое Helios на самом деле

Helios — это авторегрессионная модель генерации видео, которая производит 33 кадра за один чанк, объединяя чанки для создания видео длительностью в минуты — до 1452 кадров при 24 FPS, что составляет примерно 60 секунд непрерывного материала.

Само по себе это не удивительно. Необычен список того, что здесь не используется:

Нет KV-кэша
Нет причинного маскирования
Нет разреженного или линейного внимания
Нет TinyVAE
Нет прогрессивных расписаний шума
Нет квантизации
Нет self-forcing, error-banks или сэмплирования ключевых кадров (стандартный инструментарий против дрейфа)

Читая этот список, я почувствовала себя человеком, которому описывают автомобиль без двигателя. Каждый из этих методов существует потому, что генерация видео требует больших ресурсов, требовательна к памяти и склонна к деградации качества на длинных последовательностях. Helios обходит всё это и при этом обеспечивает инференс в реальном времени. Вопрос не в том, работает ли это — демо существуют — а в том, как.

Трёхэтапный пайплайн обучения

Helios поставляется в трёх вариантах модели, каждый из которых соответствует этапу обучения. Понимание этапов помогает объяснить логику дизайна.

Этап 1: Helios-Base

Основа. Здесь реализованы ключевые архитектурные инновации:

Unified History Injection — модель получает условия на основе предыдущих чанков без обычных штрафов за накопление ошибок
Easy Anti-Drifting — стратегия на этапе обучения, заменяющая инференс-хаки (self-forcing, error-banks), на которые полагается большинство авторегрессионных видеомоделей
Multi-Term Memory Patchification — эффективный по памяти подход к работе с длинным временны́м контекстом

Helios-Base использует v-prediction со стандартным classifier-free guidance. Он обеспечивает наивысшее базовое качество среди трёх вариантов, но и наибольшую нагрузку при инференсе — 50 шагов диффузии на чанк.

Этап 2: Helios-Mid

Промежуточный чекпоинт, который вводит Pyramid Unified Predictor Corrector для сжатия токенов. Здесь модель начинает обменивать незначительное качество на ощутимый прирост скорости. Используется CFG-Zero*, что исключает необходимость в безусловных вычислениях модели при инференсе.

Если вы работали с диффузионными моделями, вы знаете, что CFG обычно удваивает вычисления, поскольку модель запускается дважды на каждом шаге — один раз с промптом, один раз без. Устранение этого требования — значительный выигрыш в эффективности.

Этап 3: Helios-Distilled

Финальный вариант использует Adversarial Hierarchical Distillation для сжатия 50 шагов диффузии до 3. Переход с v-prediction на x0-prediction с кастомным планировщиком (HeliosDMDScheduler) и полный отказ от CFG.

Именно этот вариант достигает 19,5 FPS. Три шага, никакого CFG, никаких трюков ускорения — просто модель, обученная делать всё правильно с первого раза.

Почему подход «без костылей» важен

Большинство работ по ускорению в генерации видео носят аддитивный характер. Вы строите модель, она слишком медленная — прикручиваете KV-кэш. Всё ещё слишком много памяти — добавляете разреженное внимание. Качество деградирует на длинных последовательностях — добавляете сэмплирование ключевых кадров. Каждое исправление вносит собственные режимы отказов и сложность.

Helios идёт противоположным путём: сделать базовую модель достаточно эффективной, чтобы надстройки не были нужны. Пайплайн обучения выполняет ту тяжёлую работу, которую обычно выполняют инференс-хаки.

Здесь есть практическое следствие, которое легко упустить. Меньше движущихся частей — меньше того, что может сломаться. Если вы когда-нибудь отлаживали повреждение KV-кэша или наблюдали, как разреженное внимание создаёт артефакты на конкретных границах кадров, вы знаете налог, который накладывают эти системы. Helios не платит этот налог.

История с памятью не менее впечатляет. Авторы утверждают, что могут разместить четыре модели на 14 миллиардов параметров в пределах 80 ГБ видеопамяти при обучении, используя размеры батчей масштаба диффузии изображений. Это агрессивное сжатие того, что обычно является огромным потреблением ресурсов.

Что она умеет

Helios поддерживает четыре режима генерации во всех трёх вариантах:

Text-to-Video — подаёшь промпт, получаешь видео
Image-to-Video — первый кадр плюс промпт
Video-to-Video — перенос стиля, изменение темпа, модификация
Интерактивный режим — итеративная доработка

Математика кадров конкретна: работа ведётся кратно 33 кадрам на чанк. Хотите примерно 30 секунд? Это 22 чанка = 726 кадров. Полная минута? 44 чанка = 1452 кадра. Граница чанка — это место, где происходят авторегрессионные передачи, и судя по увиденным демо, швы удивительно чистые.

Этот последний момент заслуживает особого внимания. Авторегрессионные видеомодели обычно показывают наихудшее поведение именно на границах чанков — дёргающееся движение, сдвиги цвета, дрейф объектов. Стратегия обучения «Easy Anti-Drifting», судя по всему, действительно решает эту проблему, хотя я хотела бы увидеть более разнообразные тестовые случаи, прежде чем объявлять проблему решённой.

Интеграция и экосистема

Helios уже поддерживает несколько бэкендов для инференса:

Hugging Face Diffusers — интеграция ModularPipeline
vLLM-Omni — дезагрегированное обслуживание с архитектурой графа на основе этапов
SGLang-Diffusion — унифицированный пайплайн с оптимизированными ядрами
Ascend NPU — поддержка оборудования с первого дня (~10 FPS на Ascend)

Интеграция с Diffusers наиболее доступна. Путь через vLLM-Omni интересен для продакшн-развёртываний, где нужно разделить стадии prefill и decode на разном оборудовании. SGLang-Diffusion выглядит как перспективный вариант — он разработан для того вида пакетного, конвейерного обслуживания, который делает возможными приложения реального времени.

Поддержка Ascend NPU — стратегический сигнал. Поддержка с первого дня для оборудования не от NVIDIA говорит о том, что это не было сделано постфактум. При ~10 FPS на Ascend это медленнее пути через H100, но всё же пригодно для многих приложений.

HeliosBench

Команда создала собственный бенчмарк — HeliosBench — специально разработанный для оценки генерации длинных видео в реальном времени. Это стоит отметить, поскольку большинство существующих видеобенчмарков сфокусированы на коротких клипах (4–16 секунд) и не фиксируют режимы отказов, возникающие на длительности в минуты: временной дрейф, деградация движения, сбои в сохранении объектов.

Наличие специально созданного бенчмарка не гарантирует объективности, но означает, что они хотя бы измеряют правильные вещи. Хотелось бы увидеть независимые оценки с использованием HeliosBench для проверки методологии.

О чём я продолжаю думать

Качество на крайних случаях. Дизайн с 33-кадровым чанком элегантен, но 44 последовательных авторегрессионных шага — это много возможностей для накопления ошибок. Демо выглядят чисто, но демо всегда выглядят чисто. Хочу увидеть состязательные промпты — сложное движение камеры, много взаимодействующих объектов, резкие изменения освещения на протяжении полной минуты.

Компромисс дистилляции. Переход с 50 шагов на 3 — агрессивный. Дистиллированные модели, как правило, жертвуют разнообразием и мелкими деталями ради скорости. Вариант Helios-Base существует не просто так — когда качество важнее скорости, вы платите в 17 раз больше вычислений. Это большой разрыв между двумя рабочими точками.

Зрелость экосистемы. Модель имеет открытый исходный код (Apache 2.0), что замечательно. Но видеомодели с открытым кодом нуждаются в инструментарии сообщества, чтобы стать практичными — ноды для ComfyUI, скрипты для дообучения, поддержка LoRA. Эта экосистема требует времени для развития, а Helios пока совсем новый.

Требования к оборудованию. Реальное время на H100 впечатляет. Но H100 не простаивают без дела на большинстве рабочих столов. Более актуальный вопрос для многих пользователей: каков опыт на 4090? На A100? Статья ясно описывает производительность на H100 и Ascend — менее ясно в отношении широкого спектра оборудования.

Почему это выделяется

За последний год я наблюдала множество анонсов в области генерации видео. Большинство из них инкрементальные: лучшие оценки FID, чуть более длинные клипы, незначительно более быстрый инференс. Helios ощущается иначе, потому что оспаривает допущение, которое я не осознавала, что усвоила — что генерация длинного видео в реальном времени требует башни инференс-оптимизаций, сложенных одна на другую.

Ответ, который предлагает Helios: а что, если просто лучше обучить модель? Перенести сложность в пайплайн обучения, а не в инференс-стек. Сделать модель изначально эффективной, а не прикручивать эффективность постфактум.

Масштабируется ли этот подход, обобщается ли и переживёт ли контакт с производственными нагрузками — открытый вопрос. Но направление compelling. Меньше движущихся частей, более чистая архитектура и числа производительности, которые говорят сами за себя.

Код и веса доступны на GitHub. Apache 2.0. Если у вас есть H100 и свободный вечер — стоит взглянуть.

Что такое Helios на самом деле

Трёхэтапный пайплайн обучения

Этап 1: Helios-Base

Этап 2: Helios-Mid

Этап 3: Helios-Distilled

Почему подход «без костылей» важен

Что она умеет

Интеграция и экосистема

HeliosBench

О чём я продолжаю думать

Почему это выделяется

Похожие статьи

Представляем PixVerse V6 Extend на WaveSpeedAI

Представляем PixVerse V6 «Изображение в видео» на WaveSpeedAI

Представляем PixVerse V6 «Текст в видео» на WaveSpeedAI

Представляем PixVerse V6 Transition на WaveSpeedAI

PixVerse V6 вышел: управление камерой, нативное аудио и многосцейное создание видео

daVinci-MagiHuman: Опенсорс-модель, которая уничтожила всех конкурентов в генерации цифровых людей