← Blog

Guía de Imagen de Referencia Z-Image: Mantén la composición mientras cambias el estilo

Guía de referencia completa de Z-Image-Base: Explicación detallada del parámetro 'Fuerza' (Guía fuerte: 0.2 - 0.4 vs. Guía débil: 0.6 - 0.8), flujo de trabajo de transferencia de estilo, técnicas de retención de composición.

9 min read
Guía de Imagen de Referencia Z-Image: Mantén la composición mientras cambias el estilo

Hola, soy Dora. ¿Sabes qué? Generaba un visual increíble una vez y luego no podía replicarlo. El mismo prompt, una necesidad ligeramente diferente, una vibra completamente distinta. Quería un control más estable, no una plantilla, solo algunas guías.

Fue entonces cuando pasé una semana apoyándome en la guía de imágenes de referencia de Z-Image. No porque fuera llamativa, sino porque prometía algo simple: conservar lo que importa de una imagen semilla mientras deja al modelo explorar. A continuación están las notas que me hubiera gustado tener al principio: cómo se siente en la práctica, dónde falla, y los ajustes silenciosos que más peso cargaron.

Qué es la guía de imagen de referencia

La guía de imagen de referencia (a veces llamada condicionamiento img2img o condicionamiento de referencia) te permite proporcionar al modelo una imagen real junto con tu prompt de texto. El modelo usa esa imagen de entrada como ancla: estilo, composición, paleta de colores o estructura, dependiendo de cómo configures los ajustes, mientras sigue escuchando tus palabras.

En la práctica, trato la imagen de referencia de Z-Image como un “definidor de tono.” No le pido que lo haga todo. La uso para reducir la varianza donde me importa (pose, paleta, diseño) y dejo que el prompt maneje el resto.

Diferencia con la generación pura de texto a imagen

Ejecuté el mismo prompt de dos formas: una sin imagen y otra con una referencia. Sin la imagen, obtuve una variedad interesante de resultados: algunos dramáticos, algunos planos, algunos inutilizables. Cuando añadí una imagen de referencia (una escena de escritorio sencilla que fotografié con mi teléfono), el modelo mantuvo la disposición del escritorio, la luz diurna suave, incluso la sensación del grano de la madera, mientras seguía intercambiando los objetos que pedí. No se sentía “bloqueado.” Se sentía cortésmente restringido.

El texto puro es excelente para exploración. Pero cuando necesitas repetibilidad (variantes de campaña, ángulos de producto, visuales para diapositivas), la imagen de referencia reduce la aleatoriedad. Mi carga mental disminuyó más aquí: menos reinicios, menos contorsiones de prompt.

Alcance de la influencia de la imagen de referencia

La referencia puede influir en diferentes capas:

  • Composición global: ángulo de cámara, colocación del sujeto, espacio negativo.
  • Señales de estilo: iluminación, densidad de textura, temperatura de color.
  • Estructura local: silueta, pose, contorno del producto.

Lo que me sorprendió: la influencia de la imagen de referencia aparece incluso cuando no describo esos detalles en el texto. Si tu referencia tiene luz cenital fuerte, tus resultados pueden heredarla a menos que lo contrarrestes en el prompt (por ejemplo, “iluminación lateral suave, reflejos atenuados”).

Explicación detallada del parámetro “Strength”

Los distintos sistemas lo llaman de forma diferente (strength, fidelity, guidance scale para imagen, etc.). El significado es similar: los valores más bajos se aferran a la referencia; los valores más altos aflojan el agarre. Si también estás ajustando la influencia del texto, este desglose de la mejor configuración CFG de Z-Image se complementa bien con los ajustes de strength.

A continuación se muestra cómo se comportaron estos rangos para mí en aproximadamente 60 generaciones. Los resultados pueden variar, los modelos difieren, pero la forma de la curva tiende a mantenerse.

0.2–0.4: Guía de referencia fuerte (mantener imagen original)

Entre 0.2 y 0.4, la imagen de referencia de Z-Image actúa como cemento húmedo. El modelo conserva la composición, la iluminación e incluso las texturas pequeñas. Si cambio el texto con algo como “sustituye el cuaderno por una tableta,” generalmente lo hace, pero la tableta termina exactamente donde estaba el cuaderno. Ideal para:

  • Cambios de color en productos
  • Cambios menores de accesorios
  • Actualizaciones de etiquetas o empaques

Fricción: aparecen artefactos si el texto solicita cambios estructurales que la referencia no puede soportar. Ejemplo: convertir una laptop cerrada en una abierta en la misma pose me dio geometría deformada en 0.3. Cuando llegaba a este límite, subía un poco el strength o cambiaba la referencia por una con una pose compatible.

0.4–0.6: Zona equilibrada

Este era mi ajuste diario. En 0.5, el modelo conserva la estructura de la escena pero reescribe los detalles con menos dificultad. La composición se mantiene: los objetos pueden moverse un poco: la iluminación puede suavizarse o calentarse. Es suficiente consistencia para un conjunto de imágenes relacionadas sin que todo parezca una copia.

Lo que ayudó: indicar qué conservar. Obtuve resultados más limpios con prompts como “mantén el ángulo del escritorio y la luz diurna: reemplaza la taza con un vaso: añade una planta, poca profundidad de campo.” La combinación de strength medio + instrucciones explícitas superó a los adjetivos vagos.

0.6–0.8: Guía débil (más creativa)

Aquí, la referencia se convierte en sugerencia, no en regla. El modelo cambia libremente el ángulo de la cámara, añade o elimina elementos, y a veces actualiza el estilo. Usé 0.7 para expandir tableros de inspiración: misma vibra, nuevos espacios. Alrededor del 30–40% de los resultados aún hacían referencia a la paleta original.

Advertencia: este rango es más propenso a malinterpretar pequeñas características de productos (puertos, patrones de costura) a menos que las refuerces en el texto o proporciones una referencia de mayor resolución. Detecté costuras extrañas en bolsos y biseles incorrectos en dispositivos. Corregible, pero vale la pena verificar.

0.8–1.0: Casi ignora la imagen de referencia

Por encima de ~0.8, trato la referencia como una insinuación de una reunión anterior. Puede reconocer colores o una silueta aproximada, pero poco más. A veces es suficiente: si solo quiero “mantenerlo cálido y con madera,” 0.85 me lleva allí mientras invita a nuevos ángulos.

Pero para trabajo de producción, no me quedo aquí mucho tiempo. Es más cercano a la generación de texto puro con un pequeño empujón. Cuando termino en 0.9, es porque elegí la referencia equivocada para el trabajo y estoy tratando de extraer solo la paleta. Generalmente es mejor elegir una mejor referencia y volver a 0.5.

Implementación de la API

Probé las llamadas a la API usando una configuración simple de requests y un pequeño wrapper. Prefiero empezar desde HTTP sin procesar porque muestra qué es realmente necesario y qué es ruido opcional.

Si eres nuevo en el condicionamiento de referencia, vale la pena revisar la documentación del proveedor sobre cómo definen strength y qué valores predeterminados usan. Para contexto sobre flujos de trabajo similares, encontré útiles las guías de Hugging Face Diffusers sobre image-to-image y ControlNet. Los nombres difieren, pero la idea es la misma.

Método para pasar el parámetro “image”

En la mayoría de las APIs que probé, la imagen de referencia se puede pasar como uno de los siguientes:

  • Una URL pública (la más rápida para prototipar, cuidado con la compresión)
  • Un URI de datos codificado en base64 (confiable, un poco verboso)
  • Carga multiparte (buena para archivos locales, mantiene EXIF/calidad bajo tu control)

Generalmente envío PNG o JPEG de alta calidad alrededor de 1024 px en el lado largo. Demasiado pequeña y los detalles se pierden: demasiado grande y pagas ancho de banda sin mejores resultados. Si la API admite múltiples imágenes de referencia, empieza con una. Superponer demasiadas a la vez puede cancelar la señal.

Ejemplo de código Python

Aquí hay un patrón mínimo que usé. Es intencionalmente sencillo para que puedas adaptarlo. Reemplaza el endpoint y la clave con los de tu proveedor.

暂时无法在飞书文档外展示此内容

Escenarios de aplicación práctica

Transferencia de estilo

Usé una fotografía limpia de producto como referencia y pedí “retrato de estudio en el estilo de película suave, halos de luz, caída gradual suave.” En 0.45, el modelo conservó la silueta del producto y volvió la iluminación cinematográfica sin distorsionar los bordes. Cuando bajé a 0.25, se aferró al brillo del estudio original, bonito, pero menos estilizado. Si quieres un estilo más audaz, muévete hacia 0.6 y refuerza con 2–3 señales de estilo específicas. Más que eso se convierte en ruido.

Variantes de imágenes de producto

Para la renovación de una página de destino, necesitaba ocho ángulos que se sintieran como hermanos, no como clones. Fotografié una configuración ordenada y la usé como imagen de referencia de Z-Image para todos los prompts. Con strength en 0.5 obtuve grano y balance de blancos consistentes en todas las tomas, mientras me permitía rotar el objeto, añadir una mano o cambiar un accesorio de fondo. El tiempo ahorrado no fue enorme por imagen (quizás dos minutos), pero el alivio mental de evitar “¿por qué esta es tan diferente?” fue real.

Refinamiento de diagramas conceptuales

Los diagramas son donde la guía de referencia brilla silenciosamente. Esbocé un diseño en Figma, cajas, flechas, etiquetas sueltas, exporté un PNG y lo usé como referencia. Con strength en 0.4, podía describir el estilo (“mínimo, líneas grises suaves, color de acento claro”) y el modelo preservaba la estructura. Eliminó una ronda de edición iterativa. Si una etiqueta quedaba desalineada, ajustaba el archivo original de Figma y volvía a ejecutar en lugar de luchar con el prompt.

Mejores prácticas

  • Empieza con una referencia limpia. Endereza, elimina el desorden y normaliza la exposición. El modelo copia más de lo que crees.
  • Elige el strength según el trabajo. 0.5 es un primer punto seguro: baja para fidelidad, sube para exploración.
  • Dile qué conservar. Instrucciones explícitas y breves (“mantén el ángulo y la paleta”) reducen la deriva.
  • Ajusta la resolución a la necesidad. Alrededor de 1024 px en el lado largo es un valor predeterminado pragmático para la mayoría de las APIs.
  • Itera en pasos pequeños. Cambia una cosa a la vez (ajuste del prompt o strength) para ver la causa y el efecto.
  • Establece una semilla mientras ajustas. Elimínala después para obtener variedad.
  • Atento al sesgo acumulativo. Si sigues reutilizando un resultado como siguiente referencia, el estilo puede calcificarse. Vuelve a tu original o a una base neutral de vez en cuando.
  • Para equipos, guarda el trío: imagen de referencia, texto del prompt y valor numérico de strength. El tú del futuro le agradecerá al tú del pasado.

Si estás rodeado de herramientas que prometen magia, esta es el tipo más silenciosa. No tomará decisiones de gusto por ti. Solo estabiliza tu mano. Lo noté en una tarde de trabajo: mismo escritorio, misma luz, menos segundas dudas. No fue un gran momento, pero se quedó conmigo.