Fluxo de Trabalho ComfyUI Nano Banana Pro: Instalação, Nós e Configurações Padrão
Você está olhando para o gráfico de nós do ComfyUI, Nano Banana Pro instalado, mas nada parece funcionar direito—som familiar? Imagine isto: uma instalação limpa, todos os nós principais colocados exatamente certos, e os melhores padrões já resolvendo sua primeira execução de inferência sem ajustes. Sou sua amiga, Dora. Percorri esse caminho muitas vezes, e neste artigo vamos analisar a instalação, configurações essenciais de nós, e os padrões que transformam confusão em fluxos de trabalho suave.

Quando ComfyUI vale a pena
Recorro ao ComfyUI quando preciso de controle que não me complica depois, roteamento de prompts, seeds, resoluções, e uma forma limpa de repetir um resultado. Text-to-image em uma única caixa é rápido, mas pequenas mudanças ficam confusas. No ComfyUI, posso ver o que está acontecendo e ajustar uma coisa de cada vez.
Alguns casos onde compensa:
- Iterando um estilo visual onde o seed importa e precisarei reproduzi-lo semana que vem.
- Misturando modelos SDXL e SD1.5 no mesmo dia e não querendo reaprender uma UI cada vez.
- Mantendo um registro de como uma imagem foi feita. ComfyUI escreve o gráfico nos metadados PNG por padrão. Isso é ouro.
Não abro ComfyUI para criar moodboards rápidos ou thumbnails descartáveis. Brilha quando o caminho do prompt para o output deve ser legível. O ComfyUI Nano Banana Pro Workflow fica nessa zona: pequeno o suficiente para carregar em segundos, claro o suficiente para que Eu Futuro não xingue Eu Passado.
Se você precisar do mesmo tipo de previsibilidade no lado da API — roteamento fixo, sem troca de modelo surpresa, visibilidade clara de uso — nosso foco WaveSpeed em manter o acesso ao modelo estável e transparente, para que a infraestrutura não se torne outra coisa que você precisa cuidar.
Gráfico de nó mínimo
Reduzi o gráfico até remover um nó a mais tornaria pior. O núcleo é o mesmo para SD1.5 e SDXL: eu apenas troco o checkpoint e a resolução.
Aqui está a espinha dorsal na qual cheguei:
- Checkpoint Loader (modelo + CLIP + VAE juntos)
- CLIP Text Encode (positivo)
- CLIP Text Encode (negativo)
- Empty Latent Image (tamanho, lote)
- KSampler (sampler, passos, CFG, seed)
- VAE Decode
- Save Image
Opcional, mas ainda leve:
- Latent Upscale (se quiser imagens maiores sem reamostragem do zero)
- Image Scale (para redimensionamento final de pixel)
A vantagem silenciosa aqui é um KSampler por renderização. Tentei encadear refinadores e agendadores sofisticados, mas o gráfico ficou bagunçado e os outputs ficaram menos previsíveis. Com esse aparelho mínimo, posso trocar modelos e manter meu mapa mental intacto.
Nota de campo: mantenho os nós de prompt próximos ao sampler e coloco os nós de imagem à direita. Quando olho para o gráfico, posso ver “palavras → latent → decode → save.” Parece óbvio, mas o layout afeta como trabalho com calma.
Padrões recomendados
Padrões são onde economizo mais tempo para meu eu futuro. Estes são os valores que defino e raramente mudo a menos que haja uma razão.
Modelo/resolução:
-
SD1.5: 768×768 para quadrado. Oferece mais detalhe que 512 sem forçar VRAM.
-
SDXL: 1024×1024 quando realmente preciso de SDXL: caso contrário, fico com 832×1216 ou 1216×832 para retratos/cenas. Divisível por 64 mantém o sampler feliz.
Sampler/passos/CFG (KSampler): -
Sampler: DPM++ 2M Karras
-
Passos: 18–24 (SD1.5), 22–28 (SDXL)
-
CFG: 4.5–6.5 dependendo da força do prompt
Prompt negativo:
- Mantenha um pequeno conjunto estável. Uso “blurry, extra fingers, overlapping limbs, watermark, low-res, jpeg artifacts.” É chato de propósito.
Lote:
- Tamanho de lote 2–4 ao explorar, contagem de lote 1. Se VRAM está apertado, use contagem de lote em vez de tamanho de lote para evitar picos.
Esses padrões produzem resultados que são “suficientemente bons” e previsíveis. Quando preciso algo mais nítido ou estilizado, mudo uma coisa de cada vez e volto atrás se não ajudar.
Configurações de consistência
Consistência é principalmente sobre não deixar pequenas flutuações se comporem. Alguns levers importam mais que o resto.
Disciplina de seed:
- Bloqueie o seed uma vez que veja uma direção que goste. Explorarei prompts com um seed fixo, depois duplicarei o nó e tentarei um novo seed para verificar robustez.
Comprimento do prompt:
- Prompts curtos estabilizam mais rápido. Se me pego escrevendo um parágrafo, divido: assunto, dica de estilo, iluminação. Três linhas superam uma divagação.
Sanidade CFG:
- Muito alto e você carimba a estrutura aprendida do modelo: muito baixo e você fica com pasta. A maioria dos meus outputs estáveis aterrissam em CFG 5–6.
Mudanças de resolução:
- Se faço upscale de latents em 1.5–2×, mantenho o mesmo seed e sampler. Grandes saltos (como 512→2048) mudam a sensação: evito a menos que o estilo consiga lidar.
Notas de versão:
- Testei isto em janeiro de 2026 com builds ComfyUI atuais e checkpoints SD1.5/SDXL comuns. Agendadores evoluem, mas o equilíbrio seed/CFG permanece útil entre versões.
Na prática, esses hábitos cortam re-renderizações. Durante uma semana, senti um ganho pequeno mas real, talvez 3–5 minutos economizados por conjunto de imagem, mas mais importante, menos dúvidas.
Estratégia de upscale
Tento dois caminhos e escolho o mais tranquilo para o projeto.
Caminho A: upscaling latent
- Use Latent Upscale (1.5× ou 2×) antes de VAE Decode.
- Reutilize as mesmas configurações de seed e sampler.
- Prós: mantém detalhes coerentes: barato em memória.
- Contras: empurre além de 2× e artefatos aparecem.
Caminho B: redimensionamento de imagem após decode
- Decode primeiro, depois Image Scale para alvo (Lanczos funciona bem), opcionalmente um leve aumento de nitidez.
- Prós: rápido, dimensionamento previsível para necessidades de layout.
- Contras: você está esticando pixels, não inventando novo detalhe.
Se estou entregando uma imagem tamanho pôster, às vezes faço um híbrido: upscale latent 1.5×, decode, depois um pequeno redimensionamento de imagem para atingir dimensões exatas. É estável e evita o look “upscale embaçado” sem perseguir nós exóticos.
Erros comuns de nó
Estes são os problemas que mais enfrento, e como contorno.
- Incompatibilidade Modelo/CLIP: Se os outputs parecem “errados” de uma forma que não é estilística, verifique se o checkpoint, CLIP e VAE estão alinhados. O único Checkpoint Loader ajuda a evitar cruzamento.
- Tamanho não divisível por 64: Latents gostam de múltiplos limpos. Se um nó reclama ou imagens cortam estranho, arredondo dimensões para o 64 mais próximo.
- CUDA OOM: Baixe o tamanho do lote primeiro. Se isso não é suficiente, caia a resolução um passo (ex: 1024→896) antes de mexer em passos.
- Seeds não realmente fixos: Alguns gráficos reinicializam seeds silenciosamente. Conecto um nó Seed ou digito diretamente no KSampler e observo a visualização para flutuação.
- Prompt negativo não conectado: Quando esqueço, tenho imagens “mais altas”. Mantenho o nó de encoder negativo visualmente próximo ao positivo para evitar fios pendurados.
Nada disso é dramático, mas pegá-los cedo mantém a sessão tranquila.
Dicas de exportação
Não quero caçar configurações depois. Dois hábitos ajudam.
- Nomenclatura de arquivo: Em Save Image, defino um padrão com seed e nome do modelo no nome do arquivo. Quando um cliente pede “versão 3, mesmo estilo, maior,” posso rastreá-lo.
- Fluxo de trabalho incorporado: ComfyUI escreve o gráfico nos metadados PNG. Se preciso compartilhar ou revisitar, carrego o PNG de volta no ComfyUI e o gráfico reconstrói. Sem notas extras necessárias.
- Backups JSON: Ainda exporto o JSON do fluxo de trabalho quando mudo algo estrutural. Um pequeno modelo por família de modelo mantém as coisas limpas.
Pequeno detalhe: mantenho outputs em pastas datadas. Não é sofisticado, mas é a diferença entre “encontrou em 10 segundos” e “onde isso foi?”
Ideia de download de modelo
Estou pensando em compartilhar um único modelo Nano Banana Pro do ComfyUI com duas abas dentro do gráfico: uma dimensionada para SD1.5, outra para SDXL, mesma ordem de nó, mesmos padrões sensatos. Você trocaria o checkpoint, definiria seu prompt, e escolheria upscale latent ou imagem.
É basicamente o gráfico que uso agora, tranquilo, rotulado, e leve o suficiente para entender à primeira vista. E se você prefere gráficos mais pesados com stylizers e refinadores, isso é justo. Gosto de ver o que muda quando movo um dial.
Continuarei aparando. Uma pequena mudança de cada vez ainda é a forma mais rápida que conheço para chegar a algo em que confio.






