Helios: Um Modelo de Geração de Vídeos Longos em Tempo Real Que Não Usa Atalhos

Tenho uma lista mental de coisas que assumo que modelos de geração de vídeo precisam: KV-cache para velocidade, atenção esparsa para memória, amostragem de keyframes para evitar deriva. Helios, do PKU-YuanGroup, descarta tudo isso — e ainda atinge 19,5 FPS em um único H100. Essa contradição foi o que me fez parar de rolar a tela.

Sou a Dora. Passei os últimos dias lendo o artigo do Helios e o repositório, rodando o que consegui localmente, e tentando entender por que essa abordagem funciona quando a sabedoria convencional diz que não deveria. Isso não é uma análise de benchmark. É mais um conjunto de notas de alguém que já foi enganado vezes suficientes por afirmações “revolucionárias” para querer ver provas.

O Que É o Helios, de Fato

Helios é um modelo autorregressivo de geração de vídeo que produz 33 frames por chunk, encadeando chunks para criar vídeos na escala de minutos — até 1.452 frames a 24 FPS, o que resulta em aproximadamente 60 segundos de filmagem contínua.

Isso por si só não é surpreendente. O que é incomum é a lista de coisas que ele não usa:

Sem KV-cache
Sem mascaramento causal
Sem atenção esparsa ou linear
Sem TinyVAE
Sem cronogramas de ruído progressivos
Sem quantização
Sem self-forcing, error-banks ou amostragem de keyframes (o kit padrão anti-deriva)

Ler essa lista foi como ouvir alguém descrever um carro que funciona sem motor. Cada uma dessas técnicas existe porque a geração de vídeo é cara, consome muita memória e é propensa à degradação de qualidade em sequências longas. Helios contorna tudo isso e ainda consegue inferência em tempo real. A questão não é se funciona — as demos estão disponíveis — mas como.

O Pipeline de Treinamento em Três Estágios

O Helios vem com três variantes de modelo, cada uma correspondendo a um estágio de treinamento. Entender os estágios ajuda a explicar a lógica do design.

Estágio 1: Helios-Base

A fundação. É aqui que as inovações arquitetônicas principais chegam:

Unified History Injection — o modelo se condiciona em chunks anteriores sem as penalidades usuais de acumulação de erros
Easy Anti-Drifting — uma estratégia de tempo de treinamento que substitui os truques de tempo de inferência (self-forcing, error-banks) dos quais a maioria dos modelos de vídeo autorregressivos depende
Multi-Term Memory Patchification — uma abordagem eficiente em memória para lidar com contexto temporal longo

Helios-Base usa v-prediction com orientação padrão livre de classificadores. Produz a mais alta qualidade bruta das três variantes, mas também é a mais pesada no tempo de inferência — 50 passos de difusão por chunk.

Estágio 2: Helios-Mid

Um checkpoint intermediário que introduz o Pyramid Unified Predictor Corrector para compressão de tokens. É aqui que o modelo começa a trocar qualidade marginal por ganhos de velocidade significativos. Usa CFG-Zero*, que elimina a necessidade de avaliações de modelo incondicionais durante a inferência.

Se você já trabalhou com modelos de difusão, sabe que o CFG tipicamente dobra seu processamento porque você executa o modelo duas vezes por passo — uma com o prompt, uma sem. Remover esse requisito é um ganho de eficiência significativo.

Estágio 3: Helios-Distilled

A variante final usa Adversarial Hierarchical Distillation para reduzir 50 passos de difusão a apenas 3. Muda de v-prediction para x0-prediction com um agendador personalizado (HeliosDMDScheduler) e elimina completamente o requisito de CFG.

Esta é a variante que atinge 19,5 FPS. Três passos, sem CFG, sem truques de aceleração — apenas um modelo treinado para acertar da primeira vez.

Por Que a Abordagem “Sem Atalhos” Importa

A maioria dos trabalhos de aceleração em geração de vídeo é aditiva. Você constrói um modelo, ele é muito lento, então você adiciona KV-cache. Ainda consome muita memória, então você adiciona atenção esparsa. A qualidade deriva em sequências longas, então você adiciona amostragem de keyframes. Cada correção introduz seus próprios modos de falha e complexidade.

Helios segue o caminho oposto: tornar o modelo base eficiente o suficiente para que você não precise dos complementos. O pipeline de treinamento está fazendo o trabalho pesado que os truques de tempo de inferência geralmente lidam.

Há uma consequência prática aqui que é fácil de ignorar. Menos partes móveis significa menos coisas para quebrar. Se você já depurou um problema de corrupção de KV-cache ou viu a atenção esparsa criar artefatos em limites específicos de frames, você conhece o custo que esses sistemas impõem. Helios não paga esse custo.

A história da memória é igualmente impressionante. O artigo afirma que é possível ajustar quatro modelos de 14 bilhões de parâmetros em 80 GB de memória GPU durante o treinamento, usando tamanhos de lote na escala de difusão de imagens. Isso é uma compressão agressiva do que normalmente é uma enorme pegada de recursos.

O Que Ele Pode Fazer

Helios suporta quatro modos de geração em todas as três variantes:

Texto para Vídeo — prompt de entrada, vídeo de saída
Imagem para Vídeo — primeiro frame mais prompt
Vídeo para Vídeo — transferência de estilo, re-temporização, modificação
Modo interativo — refinamento iterativo

A matemática de frames é específica: você trabalha em múltiplos de 33 frames por chunk. Quer aproximadamente 30 segundos? São 22 chunks = 726 frames. Um minuto completo? 44 chunks = 1.452 frames. O limite do chunk é onde acontecem as transferências autorregressivas, e pelas demos que vi, as costuras são notavelmente limpas.

Esse último ponto merece ênfase. Modelos de vídeo autorregressivos geralmente mostram seu pior comportamento nos limites de chunk — travamentos de movimento, mudanças de cor, deriva de objetos. A estratégia de treinamento “Easy Anti-Drifting” parece genuinamente abordar isso, embora eu queira ver casos de teste mais diversos antes de declarar o problema resolvido.

Integração e Ecossistema

Helios já suporta múltiplos backends de inferência:

Hugging Face Diffusers — integração ModularPipeline
vLLM-Omni — serviço disaggregado com arquitetura de grafo baseada em estágios
SGLang-Diffusion — pipeline unificado com kernels otimizados
Ascend NPU — suporte a hardware desde o Dia 0 (~10 FPS no Ascend)

A integração com Diffusers é a mais acessível. O caminho vLLM-Omni é interessante para implantações em produção onde você quer separar os estágios de prefill e decode em hardware diferente. SGLang-Diffusion parece a opção mais voltada para o futuro — é projetada para o tipo de serviço em lote e pipeline que torna as aplicações em tempo real viáveis.

O suporte a Ascend NPU é um sinal estratégico. O suporte desde o Dia 0 para hardware não-NVIDIA sugere que isso não foi uma reflexão tardia. A ~10 FPS no Ascend, é mais lento que o caminho no H100, mas ainda utilizável para muitas aplicações.

HeliosBench

A equipe construiu seu próprio benchmark — HeliosBench — projetado especificamente para avaliar a geração de vídeo longo em tempo real. Vale notar porque a maioria dos benchmarks de vídeo existentes foca em clipes curtos (4–16 segundos) e não captura os modos de falha que emergem em comprimentos na escala de minutos: deriva temporal, degradação de movimento, falhas de persistência de objetos.

Ter um benchmark construído especificamente não garante objetividade, mas significa que pelo menos estão medindo as coisas certas. Gostaria de ver avaliações independentes usando o HeliosBench para validar a metodologia.

O Que Ainda Estou Pensando

Qualidade nos extremos. O design de chunk de 33 frames é elegante, mas 44 passos autorregressivos consecutivos são muitas oportunidades para erro acumulado. As demos parecem limpas, mas demos sempre parecem limpas. Quero ver prompts adversariais — movimento de câmera complexo, muitos objetos interagindo, mudanças dramáticas de iluminação ao longo de um minuto completo.

O trade-off da destilação. Ir de 50 passos para 3 é agressivo. Modelos destilados geralmente sacrificam diversidade e detalhes finos por velocidade. A variante Helios-Base existe por uma razão — quando a qualidade importa mais que a velocidade, você está pagando 17x o processamento. Isso é uma lacuna ampla entre os dois pontos de operação.

Maturidade do ecossistema. O modelo é open-source (Apache 2.0), o que é ótimo. Mas modelos de vídeo open-source precisam de ferramentas da comunidade para se tornarem práticos — nós de ComfyUI, scripts de treinamento para fine-tuning, suporte a LoRA. Esse ecossistema leva tempo para se desenvolver, e agora o Helios é completamente novo.

Requisitos de hardware. Tempo real em um H100 é impressionante. Mas H100s não estão ociosos na mesa da maioria das pessoas. A questão mais relevante para muitos usuários é: qual é a experiência em uma 4090? Em uma A100? O artigo é claro sobre o desempenho no H100 e no Ascend — menos claro sobre a longa cauda de hardware.

Por Que Isso Se Destaca

Acompanhei muitos anúncios de geração de vídeo no último ano. A maioria deles é incremental: melhores pontuações FID, clipes ligeiramente mais longos, inferência marginalmente mais rápida. Helios parece diferente porque desafia uma suposição que eu não percebia ter internalizado — que a geração de vídeo longo em tempo real requer uma torre de otimizações de inferência empilhadas umas sobre as outras.

A resposta que Helios propõe é: e se você simplesmente treinasse o modelo melhor? Empurre a complexidade para o pipeline de treinamento, não para a pilha de inferência. Torne o modelo inerentemente eficiente em vez de adicionar eficiência após o fato.

Se essa abordagem escala, generaliza e sobrevive ao contato com cargas de trabalho de produção é uma questão em aberto. Mas a direção é convincente. Menos partes móveis, arquitetura mais limpa e números de desempenho que falam por si mesmos.

O código e os pesos estão no GitHub. Apache 2.0. Se você tem um H100 e uma tarde livre, vale a pena conferir.

O Que É o Helios, de Fato

O Pipeline de Treinamento em Três Estágios

Estágio 1: Helios-Base

Estágio 2: Helios-Mid

Estágio 3: Helios-Distilled

Por Que a Abordagem “Sem Atalhos” Importa

O Que Ele Pode Fazer

Integração e Ecossistema

HeliosBench

O Que Ainda Estou Pensando

Por Que Isso Se Destaca

Artigos relacionados

Apresentando PixVerse V6 Extend no WaveSpeedAI

Apresentando o PixVerse V6 Image-to-Video no WaveSpeedAI

Apresentando PixVerse V6 Transition no WaveSpeedAI

Apresentando o PixVerse V6 Text-to-Video no WaveSpeedAI

PixVerse V6 Chegou: Controle de Câmera, Áudio Nativo e Geração de Vídeo Multi-Plano

daVinci-MagiHuman: O Modelo Open-Source que Acabou de Superar Todos os Geradores de Humanos Digitais