NVFP4 vs NVFP8 para LTX-2: Comparação de Velocidade, Qualidade e VRAM (Guia RTX)

Eu não estava procurando por configurações de precisão. Encontrei-as porque o LTX-2 continuava empurrando minha GPU de 16 GB para o limite durante uma renderização em lote. A visualização congelou, meu ventilador rugiu, e aquele pequeno dropdown, NVFP4 ou NVFP8, de repente pareceu menos uma opção de nicho e mais uma maneira de passar o dia.

Na semana passada (janeiro de 2026), testei o LTX-2 com NVFP4 e NVFP8 em alguns cenários estáveis e monótonos: clipes curtos em 1080p e 2K para passes de conceito, e alguns stills e panorâmicas em 4K para mood boards de clientes. Nada heroico, sabe? Apenas o tipo de trabalho que se acumula. Aqui está o que notei, o que funcionou, e onde cada configuração quietamente ajudou, ou atrapalhou.

NVFP4 vs NVFP8 Explicado (resumo em uma sentença)

NVFP4 troca um pouco de qualidade e estabilidade por menos VRAM e maior throughput: NVFP8 mantém os detalhes melhor mas pede mais da sua GPU.

Matriz de Tradeoff entre Velocidade / VRAM / Qualidade

Vou manter isso simples porque a realidade é simples.

Velocidade: NVFP4 foi geralmente 15–30% mais rápido em minhas execuções, dependendo da resolução e tamanho do lote: NVFP8 desacelerou um pouco mas manteve a consistência.
VRAM: NVFP4 reduziu a pegada de memória em aproximadamente 25–40% para mim: NVFP8 usou mais mas reduziu artefatos.
Qualidade: NVFP8 manteve as arestas finas (cabelo, sinalização, micro-texturas) e reduziu cintilação no movimento: NVFP4 suavizou detalhes e às vezes adicionou pequena oscilação temporal.

Essa é a forma disso. O resto é situacional.

Algumas anotações de campo de testes repetíveis em uma RTX 4090 (24 GB) e uma 4080 (16 GB):

1080p, clipes curtos (4–6s): NVFP4 manteve a visualização suave e me deixou aumentar os tamanhos de lote: NVFP8 manteve rostos e tipo mais limpos quadro a quadro.
2K, clipes médios (8–12s): NVFP4 foi bom para os primeiros passes: NVFP8 evitou o pequeno “rastreamento” em texturas ao fazer panorâmicas.
4K, stills: NVFP8 valeu a pena. Eu preferia esperar um pouco do que gastar tempo retocando arestas.

Nada disso foi dramático. Mas eu senti. Menos pressão de VRAM com NVFP4 significava menos interrupções. Saída mais limpa com NVFP8 significava menos refazimentos.

Quando Usar NVFP4 (produção em lote / VRAM baixo)

Recorro a NVFP4 quando me importo mais com o fluxo do que com o acabamento.

Onde NVFP4 ajudou

Passes de conceito em lote: Eu poderia executar 3–6 prompts em paralelo em 1080p em 16 GB sem fazer malabarismos com a memória. Isso significava que eu mantinha o fluxo e comparava opções mais cedo.
Rough cuts e animatics: Para quick boards com shots de placeholder, a suavidade leve não importava. Na verdade, escondeu oddidades.
Sessões longas: Margem de VRAM significava menos reinicializações. Menos fricção se acumula ao longo de um dia.

Tradeoffs que realmente notei

Perda de micro-detalhes: Padrões finos (malha, tipo de linha do cabelo, pequenos reflexos) foram ligeiramente atenuados. Não quebrados, apenas menos nítidos.
Estabilidade temporal: Em panorâmicas lentas, NVFP4 às vezes introduzia um pequeno cintilamento em áreas de alta frequência. Nem sempre era óbvio na timeline, mas aparecia ao pausar.

Faixas práticas que se sentiram seguras para mim

1080p, clipes curtos: NVFP4 com tamanhos de lote modestos (2–4) ficou bem abaixo de 16 GB.
2K, clipes curtos: NVFP4 manteve as coisas suaves em 16 GB se eu não pressionasse muito o comprimento do contexto.

Por que usá-lo: NVFP4 é uma boa “precisão de pensamento”. Reduz o custo de explorar ideias. Se a saída é apenas para você ou um check-in da equipe, NVFP4 faz o LTX-2 parecer leve.

Quando Usar NVFP8 (qualidade / detalhes finos)

Mudo para NVFP8 quando estou fechando o loop.

Onde NVFP8 valeu a pena

Frames finais para decks: Se um frame pode viajar, compartilhamento do cliente, portfólio ou social, NVFP8 reduziu a limpeza.
Rostos e mãos: As arestas mantiveram melhor, e o pequeno tremor em volta de cílios/linha do cabelo se acalmou.
Tipo e sinalização: Não perfeito, mas legível mais frequentemente. Menos re-renderizações apenas para corrigir uma letra oscilante.

Custos a aceitar

VRAM mais pesado: Em 16 GB, mantive tamanhos de lote baixos em 2K e evitei empilhar nós extras no mesmo gráfico.
Um pouco mais lento: Não me importei com a espera porque executei NVFP8 apenas depois que gostei do shot.

Se você está tocando 4K nem que seja para stills, NVFP8 é o padrão mais seguro. Tentei economizar tempo com NVFP4 uma vez em 4K: gastei esse tempo de volta em pós-processamento limpando arestas.

Tabela de Configuração por Resolução (1080p / 2K / 4K)

Estas não são regras. São o que me manteve em movimento sem mexer constantemente. O hardware importa. Isto foi em:

RTX 4080 16 GB (desktop)
RTX 4090 24 GB (máquina de estúdio)

Definições:

“Batch” aqui = prompts ou clips paralelos em uma execução de gráfico.
“Context/length” = quanto tempo sua sequência executa ou quanto condicionamento você empacota.

1080p (1920×1080)

16 GB: NVFP4, lote 3–4, clipes curtos (≤6s) se sentem seguros: NVFP8, lote 2, estável.
24 GB: NVFP4, lote 6–8 fácil: NVFP8, lote 3–4 com espaço para extras.

2K (2048×1152 ou 2048×1536)

16 GB: NVFP4, lote 2–3: NVFP8, lote 1–2: manter contexto moderado.
24 GB: NVFP4, lote 4: NVFP8, lote 2–3, observe o empilhamento de nós.

4K (3840×2160)

16 GB: NVFP4, apenas singles, contextos curtos: NVFP8, singles, seja paciente.
24 GB: NVFP4, lote 2 em um gráfico enxuto: NVFP8, single ou lote 2 se outros nós forem leves.

Sinais de que você está forçando:

Picos de VRAM ao fazer scrubbing ou mudar seeds durante a execução.
A saída começa bem mas se degrada nas frames posteriores.
Visualização ComfyUI pausa mais tempo entre frames do que o usual.

Se você atingir qualquer um desses, primeiro reduza o tamanho do lote. Depois encurte a sequência. A precisão é geralmente a última alavanca que puxo.

Como Mudar Precisão em ComfyUI

Isso depende um pouco do pacote de nós que você está usando, mas aqui está o que vi (janeiro de 2026):

Model loader ou nó LTX-2: geralmente há um dropdown Precision ou Dtype. Vi opções como NVFP4, NVFP8 e float16. Mudo lá e mantenho o resto do gráfico inalterado.
Se não houver dropdown: verifique a documentação do nó ou readme do repositório. Algumas compilações herdam a configuração de um config global ou um flag de ambiente.
Gráficos mistos: se você está encadeando LTX-2 com upscalers ou nós de pós-processamento, fique de olho em incompatibilidades de dtype. A maioria dos nós cast automaticamente, mas às vezes você paga um imposto de memória oculto.

O que funcionou para mim

Salvar duas versões do mesmo gráfico: uma chamada _fp4 para exploração, uma _fp8 para finais. Dessa forma não estou procurando por um toggle.
Manter visualização habilitada em passes NVFP4. Se a visualização gagueja, geralmente é um sinal de que meu lote ou contexto é muito alto nem que seja para fp4.

Se você quer especificidades, a documentação oficial ou o repo do nó frequentemente explicam como o flag de precisão é passado. Eu faço verificação cruzada desses quando algo parece errado.

Teste Ambos no WaveSpeed

Eu não confiava apenas nos meus olhos, então recorri a um loop simples: mesmo prompt, mesma seed, duas execuções, uma em NVFP4, uma em NVFP8, cronometradas com um pequeno workflow WaveSpeed e um cronômetro do lado. Me importo menos com os números exatos e mais com a forma da diferença.

O que medi (aproximadamente)

Throughput: NVFP4 consistentemente terminou 15–30% mais rápido na minha caixa de 16 GB: mais próximo de 20% na caixa de 24 GB.
Margem de VRAM: NVFP4 me deixou 2–4 GB extra em 1080p, o que me permitiu manter um nó de denoise leve ativo. NVFP8 comeu essa margem.
Visuais: em uma panorâmica lenta através de tijolos e folhagem, NVFP8 manteve a textura. NVFP4 embaçou um pouco e adicionou um pequeno cintilamento. Em clipes com muito movimento, mal notei.

WaveSpeed (ou qualquer rig de benchmark que você use) me ajuda a manter a honestidade. Executo três pares e descarto o primeiro como aquecimento. Depois faço uma pergunta monótona: essa configuração economizou etapas para mim? Se a resposta for sim, ela fica.

Se você quiser comparar NVFP4 e NVFP8 sem fazer malabarismos com os limites de VRAM locais, WaveSpeed permite executar os mesmos prompts e seeds do LTX-2 em GPUs de nuvem maiores. É uma maneira direta de fazer uma verificação de sanidade de velocidade, margem de memória e tradeoffs visuais antes de você bloquear as configurações. Quem pode preferir qual:

Se você está fazendo storyboarding, prototipagem de recursos ou produzindo conceitos social-first em volume, NVFP4 combina bem com prazos.
Se você está repassando frames que serão pausados, ampliados ou prontos para impressão, NVFP8 ganha seu lugar.

Não vou reivindicar que um é melhor. Eles são diferentes marchas. Mudo muito menos agora que nomeei quando cada um ajuda.

Uma pequena nota que mantenho no canto do meu notebook: quando uma renderização parece “barulhenta” para julgar, geralmente não é um problema de precisão, é um problema de variabilidade de configurações. Corto variáveis primeiro, depois altern NVFP4/NVFP8.

É aí que vou deixar isso. Ontem, NVFP8 me economizou uma hora que teria gasto limpando arestas em um still 4K. Esta manhã, NVFP4 me permitiu visualizar quatro looks ao mesmo tempo sem o ventilador soar como decolagem. Eu não preciso de mais que isso.