← Blog

Guía de configuración de CFG para Z-Image: Cómo evitar problemas de sobresaturación y sobreexposición

La configuración óptima de CFG (guidance_scale) para Z-Image-Base: El rango recomendado es de 3.5 a 6. Un CFG excesivo provoca problemas de sobresaturación. Los diferentes estilos tienen valores de CFG recomendados distintos.

10 min read
Guía de configuración de CFG para Z-Image: Cómo evitar problemas de sobresaturación y sobreexposición

Esta semana, seguía obteniendo imágenes que se sentían un poco… estridentes. Los colores eran llamativos, las luces se quemaban y el ambiente no coincidía con mi prompt, aunque el tema sí lo hiciera. Esa pequeña fricción me impulsó a sentarme con un café y realizar una serie tranquila de pruebas con Z-Image-Base, los mismos prompts, las mismas semillas, diferentes valores de CFG, hasta que los patrones se volvieron obvios.

Soy Dora. Esta Guía de Configuración de CFG para Z-Image es el resultado de esas pruebas, más notas de trabajos anteriores con modelos de difusión. No estoy aquí para venderte una configuración. Estoy aquí para mostrarte lo que cambió para mí, por qué probablemente sucede y dónde un pequeño ajuste puede hacer que el trabajo se sienta más ligero en lugar de más ruidoso.

Qué es CFG

La influencia del CFG en la generación de imágenes

Classifier-Free Guidance (CFG) es el dial que decide con qué fuerza el modelo debe seguir tu prompt versus sus propios priors aprendidos. Un CFG bajo deja que el modelo divague; un CFG alto lo acerca más a tus palabras. En la práctica, es menos místico de lo que suena. Lo pienso como un director dando instrucciones: “Más suelto” o “cíñete al guión.”

Cuando barrí el CFG de 1 a 9 con prompts idénticos (“luz suave de mañana, taza de cerámica sobre un escritorio de madera, poca profundidad de campo”), los cambios fueron consistentes:

  • CFG bajo (1–3): mayor varianza de ambiente, contraste más suave, texturas más inesperadas. A veces la taza se convertía en gres o la luz se volvía más fría. No era incorrecto, solo interpretativo.
  • CFG medio (3.5–6): las imágenes se estabilizaron, la composición se mantuvo y los detalles coincidieron con el prompt sin volverse frágiles. Aquí fue donde me relajé.
  • CFG alto (7+): el cumplimiento del tema se mantuvo alto, pero la saturación de color y el microcontraste aumentaron. Las luces se quemaban con más frecuencia. Se veía impactante a primera vista, luego agotador.

Si quieres un referente formal, el artículo original de Classifier-Free Guidance de Jonathan Ho y Tim Salimans explica el mecanismo: CFG escala la diferencia entre predicciones condicionales e incondicionales para intercambiar fidelidad de muestra y diversidad.

La relación entre el valor CFG y el cumplimiento del prompt

Un CFG más alto aumenta el cumplimiento del prompt, pero con compensaciones:

  • No arregla los prompts vagos. Un prompt difuso con CFG 8 sigue siendo difuso, solo que más ruidoso.
  • Puede forzar un literalismo que lucha contra el estilo. Con una guía alta, vi que “brillante” se colaba aunque yo no lo pidiera, como si el modelo sobrearticulara.
  • Interactúa con los prompts negativos. “Sin luces quemadas, sin sobresaturación” amortiguó ligeramente el CFG alto, pero no tan bien como simplemente bajar el dial.

Mi conclusión: usa CFG para “afinar” un buen prompt, no para rescatar uno débil. El punto óptimo suele ser donde el cumplimiento aumenta sin que el color y la iluminación se vuelvan teatrales.

Rango recomendado de CFG para Z-Image-Base

CFG bajo (1–3): Más aleatorio, más creativo

Cuando trabajé con CFG 2 en Z-Image-Base, obtuve una suavidad agradable, casi cinematográfica. Los bordes eran menos estrictos y los pequeños artefactos se fundían en el grano en lugar de en un brillo plástico. Este rango fue útil para:

  • Escenas con atmósfera prioritaria: niebla, crepúsculo, bokeh, renderizados tipo acuarela.
  • Ideación temprana: quería posibilidades, no precisión. El CFG bajo me dio tres direcciones creíbles desde una sola semilla.

Limitaciones que encontré:

  • Deriva de composición: los objetos se movían, el encuadre cambiaba, las manos se volvían inestables.
  • Los detalles específicos del prompt (marca, cantidad de objetos) se perdían.

Si estás haciendo mood boarding o explorando un lenguaje visual, el CFG bajo es suave y generativo. Si tienes una fecha límite para ajustarte a un brief, probablemente sea demasiado libre.

CFG medio (3.5–6): Punto de equilibrio (recomendado 4.5)

Esta fue la zona más confiable en mis pruebas. En 4.5, Z-Image-Base se sentía cooperativo sin volverse brillante. Algunas notas de campo:

  • Los colores se asentaron. Los tonos de piel dejaron de inclinarse hacia el neón. La madera parecía madera, no laca.
  • La iluminación se mantuvo expresiva pero no se quemó. Las camisas blancas conservaron textura.
  • Los prompts mantuvieron su forma: si pedía “dos tazas,” obtenía dos tazas la mayoría de las veces.

Por qué recomiendo 4.5 como punto de partida:

  • Capturaba la intención del prompt mientras dejaba espacio para el estilo.
  • Se complementaba bien con prompts negativos pequeños (p. ej., “demasiado saturado, brillo plástico”).
  • Con seis semillas por prompt, la variación siguió siendo útil, no caótica.

Casos límite:

  • Los renders de productos muy técnicos a veces necesitaban un punto más alto (5–5.5) para definir los bordes.
  • Las texturas pictóricas se veían bien aquí, pero a veces florecían mejor en 3.5–4.

CFG alto (7+): Riesgo de sobresaturación

Empujé de 7 a 9 para ver dónde se rompían las cosas. No se rompieron, pero gritaron.

  • La saturación aumentó de una manera que captaba la atención en la miniatura y luego me agotaba en contexto.
  • Los reflejos especulares se volvieron duros. Los metálicos eran llamativos, la piel quedaba cerosa.
  • Patrones de ruido aparecían en campos planos, como si el modelo se esforzara demasiado.

¿Hay usos para el CFG alto? Algunos:

  • Recursos donde lo llamativo importa más que el matiz, como miniaturas.
  • Restricciones de marca estrictas, si también controlas el color en postproducción y vigilas la exposición.

Pero si estás obteniendo “efecto plástico” o destellos brillantes que no puedes corregir, baja el dial antes de añadir arreglo tras arreglo. En mis pruebas, bajar de 7.5 a 5 solucionó más que cualquier lista de prompts negativos.

Diagnóstico de problemas comunes

Sobresaturación de imagen / colores demasiado brillantes

Lo que vi: los rojos y los turquesas irrumpían, los degradados se bandeaban y toda la imagen se sentía como HDR.

Causa probable: CFG empujando demasiado fuerte, a veces combinado con samplers que tienden al contraste.

Lo que ayudó:

  • Bajar CFG 1–2 puntos primero. Ganancias simples.
  • Añadir un negativo ligero: “sobresaturado, recorte de color.” Empujó un poco, pero no reemplazó el cambio de CFG.
  • Si está disponible, reducir el postprocesado de contraste o cambiar a un sampler que preserve mejor los tonos medios.

Relación con el trabajo: los recursos comenzaron a encajar mejor junto a fotos reales en una página. Dejé de luchar con el color en postproducción.

Sobreexposición de imagen / desbordamiento de luz alta

Lo que vi: las camisas blancas perdieron su trama; las ventanas brillaban como portales. Los histogramas se agrupaban a la derecha.

Causa probable: CFG alto más prompts con “brillante” o “iluminado por el sol” sin restricciones.

Lo que ayudó:

  • Bajar CFG al rango 4–5.
  • Ser explícito: “luz suave difusa,” “conservar el detalle en las altas luces” o “sin luces quemadas.”
  • Ajustar la exposición mediante el prompt (“nublado” hizo más de lo que esperaba). Si la herramienta lo permite, reducir ligeramente la exposición/contraste en lugar de luchar solo con la guía.

Resultado: los especulares se mantuvieron, pero con textura. La imagen parecía más una cámara, menos un render de sala de exposición.

Pérdida de detalles / efecto plástico

Lo que vi: la piel parecía cerosa, la tela se convertía en degradados suaves, la microtextura desaparecía.

Causa probable: una combinación de CFG alto y términos de estilo como “brillante,” “iluminación cinematográfica” o “ultra-detallado” que paradójicamente aplana las superficies.

Lo que ayudó:

  • Bajar CFG a ~4.5.
  • Reemplazar “ultra-detallado” con indicaciones de textura concretas: “trama de lino fino,” “poros sutiles,” “acabado mate.”
  • Añadir un negativo como “plástico, ceroso, aerografiado.”

En la práctica: esto no me ahorró tiempo en el primer intento, pero después de algunas imágenes, noté que reducía el esfuerzo mental. Menos repeticiones. Menos momentos de “¿por qué esto parece falso?”

Sugerencias de CFG para diferentes estilos

Fotografía realista: CFG 4–5

Para prompts fotorrealistas, 4–5 fue lo más cercano a “configurar y olvidar.” Usé este rango en retratos, escenas de escritorio y fotografías sencillas de comida. En 4.5, la textura de la piel se mantuvo, las sombras no se aplastaron y los objetivos se sentían creíbles.

Ajustes útiles:

  • Pide iluminación como lo haría un humano: “luz de ventana, orientación norte, nublado.”
  • Usa negativos pequeños: “sobresaturado, piel plástica.”
  • Mantén los términos de composición sencillos: “35mm, f/2.8, hasta la cintura.” Los prompts demasiado ornamentados forzaban el estilo y luchaban contra el realismo.

Para quién es: marketers y creadores que mezclan imágenes generadas con fotografía real. Se integra en páginas de marca sin llamar demasiado la atención.

Estilo de ilustración: CFG 5–7

La ilustración prefería un poco más de guía. En 5.5–6.5, el trabajo de línea se mantenía unido y las paletas eran intencionales sin volverse de neón.

Ajustes útiles:

  • Sé específico sobre el medio: “aguada de gouache,” “línea entintada,” “textura de serigrafía.” La guía entonces se ancla a esa idea.
  • Si los colores gritan, baja CFG y ancla las indicaciones de paleta (“tonos tierra apagados,” “paleta limitada”).
  • Para hojas de concepto, baja hasta 3.5 para fomentar la variación entre fotogramas.

Para quién es: equipos que construyen sistemas visuales consistentes, aplicaciones, documentación o materiales educativos, donde la coherencia de estilo supera a los trucos fotorrealistas.

Cooperación del CFG con otros parámetros

El CFG no trabaja solo. Algunas interacciones siguieron apareciendo para mí:

  • Sampler y pasos: Con más pasos, los artefactos de CFG alto a veces se suavizaban, pero no lo suficiente como para justificar el tiempo extra. Obtuve mejores resultados bajando CFG que aumentando los pasos.
  • Resolución: Escalar a alta resolución con CFG alto exageraba el brillo plástico. Cuando necesitaba salidas grandes, mantenía CFG moderado (≈4.5) y dejaba que un escalador separado manejara los detalles.
  • Prompts negativos: Son condimento, no rescate. Una lista pequeña y específica funcionó mejor: “sobresaturado, piel cerosa, luces quemadas.” Las listas largas apagaban la imagen.
  • Tokens de estilo: Si incluyes indicaciones de estilo fuertes (“flash de estudio, revista brillante”), espera que amplifiquen el impacto de CFG alto. Suaviza el lenguaje de estilo o baja CFG.
  • Semillas y variación: Ejecutar tres semillas en 4.5 me dio más opciones utilizables que una semilla en 7. Lo primero se sentía como elección; lo segundo, como corrección.

Si quieres entender el porqué más profundo, el método de Classifier-Free Guidance en modelos de difusión efectivamente escala la diferencia entre predicciones condicionales e incondicionales. Empujarlo demasiado lejos y amplificarás no solo la señal sino también el ruido y el sesgo hacia representaciones de alto contraste. Buenos recursos: el artículo original sobre Classifier-Free Guidance y las notas de guidance_scale en Diffusers. Se alinean con lo que observé: usa la guía para dirigir, no para forzar.

Todo esto se reduce a una pequeña práctica que ahora sigo: comienzo en CFG 4.5, ejecuto dos semillas y solo muevo el dial si puedo nombrar qué está mal (demasiado brillante, demasiado plastificado, demasiado vago). Es un trabajo tranquilo, pero me ahorra luchar con el modelo más tarde. Si estás integrando esto en un flujo de trabajo o pipeline de API, esta breve guía de API de Z-Image-Base muestra dónde se ubica guidance_scale y cómo pasarlo correctamente.