← Blog

Guia de Configuração CFG do Z-Image: Evitando Problemas de Supersaturação e Superexposição

A configuração ideal para o CFG do Z-Image-Base (guidance_scale): O intervalo recomendado é de 3,5 a 6. CFG excessivo causa problemas de supersaturação. Estilos diferentes têm valores CFG recomendados diferentes.

10 min read
Guia de Configuração CFG do Z-Image: Evitando Problemas de Supersaturação e Superexposição

Esta semana, continuei obtendo imagens que pareciam um pouco… estridentes. As cores eram intensas, os realces estouravam, e a atmosfera não combinava com o meu prompt, mesmo quando o assunto combinava. Essa pequena frustração me levou a sentar com um café e realizar uma série tranquila de testes no Z-Image-Base, mesmos prompts, mesmas seeds, diferentes valores de CFG, até que os padrões ficaram evidentes para mim.

Sou Dora. Este Guia de Configuração de CFG do Z-Image é o resultado dessas execuções, mais anotações de trabalhos anteriores com modelos de difusão. Não estou aqui para vender uma configuração. Estou aqui para mostrar o que mudou para mim, por que provavelmente acontece, e onde um pequeno ajuste pode fazer o trabalho parecer mais leve em vez de mais ruidoso.

O que é CFG

A influência do CFG na geração de imagens

O Classifier-Free Guidance (CFG) é o controle que decide com que intensidade o modelo deve seguir seu prompt em vez de seus próprios priors aprendidos. CFG baixo deixa o modelo divagar; CFG alto o puxa mais para perto de suas palavras. Na prática, é menos místico do que parece. Eu penso nisso como um diretor dando notas: “Mais solto” ou “siga o roteiro.”

Quando varrei o CFG de 1 a 9 em prompts idênticos (“luz suave da manhã, caneca de cerâmica em uma mesa de madeira, profundidade de campo rasa”), as mudanças foram consistentes:

  • CFG baixo (1–3): variância mais sombria, contraste mais suave, texturas mais inesperadas. Às vezes a caneca se tornava de pedra-sabão ou a luz ficava mais fria. Não estava errado, apenas interpretativo.
  • CFG médio (3.5–6): as imagens se estabilizaram, a composição se manteve, e os detalhes correspondiam ao prompt sem ficar frágeis. Foi aqui que meus ombros relaxaram.
  • CFG alto (7+): a conformidade com o assunto permaneceu alta, mas a saturação de cores e o micro-contraste aumentaram. Os realces foram cortados com mais frequência. Parecia impactante à primeira vista, depois cansativo.

Se você quiser uma referência formal, o artigo original do Classifier-Free Guidance de Jonathan Ho e Tim Salimans explica o mecanismo: o CFG escala a diferença entre previsões condicionais e incondicionais para equilibrar fidelidade e diversidade das amostras.

A relação entre o valor de CFG e a conformidade com o prompt

CFG mais alto aumenta a conformidade com o prompt, mas com compromissos:

  • Não corrige prompts vagos. Um prompt impreciso com CFG 8 ainda é impreciso, só que mais ruidoso.
  • Pode forçar literalismo que luta contra o estilo. Com guidance alta, vi “brilhoso” aparecer mesmo quando não pedi, como se o modelo estivesse exagerando na entonação.
  • Interage com prompts negativos. “Sem realces estourados, sem supersaturação” amenizou levemente o CFG alto, mas não tão bem quanto simplesmente diminuir o controle.

Minha conclusão: use o CFG para “ajustar” um bom prompt, não para salvar um fraco. O ponto ideal geralmente está onde a conformidade aumenta sem que cores e iluminação fiquem teatrais.

Faixa recomendada de CFG para Z-Image-Base

CFG baixo (1–3): Mais aleatório, mais criativo

Quando fiquei no CFG 2 no Z-Image-Base, obtive uma suavidade agradável, quase fílmica. As bordas eram menos rígidas, e pequenos artefatos desapareciam no grão em vez de criar brilho plástico. Esta faixa ajudou para:

  • Cenas com foco na atmosfera: neblina, crepúsculo, bokeh, renderizações estilo aquarela.
  • Ideação inicial: eu queria possibilidades, não precisão. O CFG baixo me deu três direções plausíveis a partir de uma seed.

Limitações que encontrei:

  • Desvio de composição: objetos se moviam, o enquadramento mudava, as mãos ficavam instáveis.
  • Detalhes específicos do prompt (marca, contagem de objetos) se perdiam.

Se você está criando um mood board ou explorando uma linguagem visual, o CFG baixo é gentil e generativo. Se você está com prazo para seguir um briefing, provavelmente é muito solto.

CFG médio (3.5–6): Ponto de equilíbrio (recomendado 4.5)

Esta foi a zona mais confiável nos meus testes. Em 4.5, o Z-Image-Base pareceu cooperativo sem ficar brilhoso. Algumas anotações de campo:

  • As cores se estabilizaram. Os tons de pele pararam de pender para o neon. A madeira parecia madeira, não laca.
  • A iluminação permaneceu expressiva mas não estourou. Camisas brancas mantiveram textura.
  • Os prompts se mantiveram: se eu pedi “duas xícaras,” recebi duas xícaras na maioria das vezes.

Por que recomendo 4.5 como ponto de partida:

  • Capturou a intenção do prompt enquanto deixava espaço para estilo.
  • Funcionou bem com pequenos prompts negativos (ex.: “excessivamente saturado, brilho plástico”).
  • Em seis seeds por prompt, a variação permaneceu útil, não caótica.

Casos extremos:

  • Renderizações de produtos muito técnicos às vezes precisavam de um valor um pouco mais alto (5–5.5) para acertar as bordas.
  • Texturas pictóricas pareciam boas aqui, mas às vezes floresciam melhor em 3.5–4.

CFG alto (7+): Risco de supersaturação

Empurrei para 7–9 para ver onde as coisas quebrariam. Elas não quebraram, mas gritaram.

  • A saturação aumentou de uma forma que chamava atenção na miniatura e depois me cansava no contexto.
  • Os realces especulares ficaram duros. Os metálicos eram chamativo, a pele ficou cerosa.
  • Padrões de ruído surgiram em campos planos, como se o modelo estivesse se esforçando demais.

Existem usos para CFG alto? Alguns:

  • Ativos com foco em miniatura onde o impacto visual importa mais do que a nuance.
  • Restrições rígidas de marca, se você também controlar as cores em pós-produção e monitorar a exposição.

Mas se você está tendo “efeito plástico” ou brilho intenso que não consegue corrigir em pós, reduza antes de acumular correção sobre correção. Nos meus testes, diminuir de 7.5 para 5 resolveu mais do que qualquer lista de prompts negativos.

Diagnóstico de problemas comuns

Supersaturação da imagem / cores excessivamente brilhantes

O que vi: vermelhos e azuis-petróleo se destacavam demais, gradientes tinham faixas, e a imagem inteira parecia próxima do HDR.

Causa provável: CFG muito alto, às vezes combinado com samplers que tendem ao contraste.

O que ajudou:

  • Reduzir o CFG em 1–2 pontos primeiro. Vitórias simples.
  • Adicionar um negativo leve: “supersaturado, corte de cor.” Funcionou como ajuste, mas não substituiu a mudança de CFG.
  • Se disponível, reduzir o pós-processamento com alto contraste ou mudar para um sampler que preserve melhor os meios-tons.

Conexão com o trabalho: os ativos começaram a se encaixar melhor ao lado de fotos reais em uma página. Parei de lutar contra as cores na pós-produção.

Superexposição da imagem / transbordamento de luz alta

O que vi: camisas brancas perderam a trama; janelas brilhavam como portais. Os histogramas se concentravam à direita.

Causa provável: CFG alto mais prompts com “brilhante” ou “iluminado pelo sol” sem restrições.

O que ajudou:

  • Reduzir o CFG para a faixa 4–5.
  • Ser explícito: “luz suave e difusa,” “manter detalhes nos realces,” ou “sem realces estourados.”
  • Ajustar a exposição via prompt (“nublado” fez mais do que eu esperava). Se a ferramenta permitir, reduzir levemente a exposição/contraste em outro lugar em vez de lutar apenas com o guidance.

Resultado: os especulares permaneceram, mas com textura. A imagem parecia mais uma câmera, menos uma renderização de showroom.

Perda de detalhes / efeito plástico

O que vi: a pele parecia cerosa, o tecido virou gradientes suaves, a microtextura desapareceu.

Causa provável: uma combinação de CFG alto e termos de estilo como “brilhoso,” “iluminação cinematográfica,” ou “ultra-detalhado” que paradoxalmente aplana as superfícies.

O que ajudou:

  • Reduzir o CFG para ~4.5.
  • Substituir “ultra-detalhado” por dicas de textura concretas: “trama fina de linho,” “poros sutis,” “acabamento fosco.”
  • Adicionar um negativo como “plástico, ceroso, aerografado.”

Na prática: isso não me economizou tempo na primeira tentativa, mas depois de algumas imagens, percebi que reduzia o esforço mental. Menos rejeições. Menos momentos de “por que isso parece falso?”.

Sugestões de CFG para diferentes estilos

Fotografia realista: CFG 4–5

Para prompts fotorrealistas, 4–5 pareceu o mais próximo de “configurar e esquecer.” Usei esta faixa em retratos, cenas de mesa e fotos simples de comida. Em 4.5, a textura da pele se manteve, as sombras não foram esmagadas, e as lentes pareciam críveis.

Ajustes úteis:

  • Pedir iluminação como um humano faria: “luz de janela, orientação norte, nublado.”
  • Usar pequenos negativos: “supersaturado, pele plástica.”
  • Manter os termos de composição simples: “35mm, f/2.8, até a cintura.” Prompts excessivamente ornamentados forçavam demais o estilo e lutavam contra o realismo.

Para quem serve: profissionais de marketing e criadores que misturam imagens geradas com fotografia real. Encaixa em páginas de marca sem chamar atenção.

Estilo de ilustração: CFG 5–7

A ilustração gostava de um pouco mais de guidance. Em 5.5–6.5, o trabalho de linha se mantinha coeso e as paletas eram intencionais sem ficar neon.

Ajustes úteis:

  • Ser específico sobre o meio: “lavagem de guache,” “linha em tinta,” “textura de serigrafia.” O guidance então se fixa nessa ideia.
  • Se as cores gritarem, reduza o CFG e ancore dicas de paleta (“tons terrosos apagados,” “paleta limitada”).
  • Para folhas de conceito, desça até 3.5 para encorajar variação entre quadros.

Para quem serve: equipes construindo sistemas visuais consistentes, aplicativos, documentação ou materiais educacionais, onde a coesão de estilo supera truques fotorrealistas.

Cooperação do CFG com outros parâmetros

O CFG não trabalha sozinho. Algumas interações continuaram aparecendo para mim:

  • Sampler e steps: Com mais steps, os artefatos de CFG alto às vezes suavizavam, mas não o suficiente para justificar o tempo extra. Obtive melhores resultados reduzindo o CFG do que aumentando os steps.
  • Resolução: Ampliar com CFG alto exagerava o brilho plástico. Quando precisei de saídas grandes, mantive o CFG moderado (≈4.5) e deixei um upscaler separado cuidar dos detalhes.
  • Prompts negativos: São tempero, não resgate. Uma lista pequena e direcionada funcionou melhor: “supersaturado, pele cerosa, realces estourados.” Listas longas opacificaram a imagem.
  • Tokens de estilo: Se você incluir dicas de estilo fortes (“luz de estúdio, revista brilhante”), espere que elas amplifiquem o impacto do CFG alto. Ou suavize a linguagem de estilo ou reduza o CFG.
  • Seeds e variação: Executar três seeds em 4.5 me deu mais opções utilizáveis do que uma seed em 7. O primeiro parecia escolha; o segundo parecia correção.

Se você quiser entender o porquê mais profundo, o método Classifier-Free Guidance em modelos de difusão efetivamente escala a diferença entre previsões condicionais e incondicionais. Force demais e você amplifica não apenas o sinal, mas também o ruído e o viés em direção a representações de alto contraste. Boas referências: o artigo original sobre Classifier-Free Guidance e as notas de guidance_scale no Diffusers. Elas se alinham com o que observei: use o guidance para direcionar, não para forçar.

Tudo isso se resume a uma pequena prática que agora sigo: começo no CFG 4.5, executo duas seeds, e só movo o controle se puder nomear o que está errado (muito brilhante, muito brilhoso, muito vago). É um trabalho tranquilo, mas me salva de lutar com o modelo mais tarde. Se você estiver integrando isso em um fluxo de trabalho ou pipeline de API, este breve guia de API do Z-Image-Base mostra onde o guidance_scale se encaixa e como passá-lo de forma limpa.

Compartilhar