Entrena un LoRA de Z-Image Turbo en WaveSpeed: Dataset, Pasos y Errores Comunes

Oye, amigo. Soy Dora.

La semana pasada, quería un estilo pequeño y consistente para un conjunto de imágenes de encabezado. Stock parecía incorrecto, y la sintonización manual de prompts seguía desviándose. Así que probé algo que había estado evitando: un LoRA rápido en Z-Image Turbo dentro de WaveSpeed. Esperaba configuraciones engorrosas y mucho ensayo y error. Lo que obtuve fue más simple de lo que pensaba, no sin esfuerzo, solo ordenado. Así es como entrené un Z-Image Turbo LoRA en WaveSpeed durante dos noches en enero de 2026, qué funcionó, qué no, y la configuración que reutilizaré. No es una guía para exprimir el último porcentaje. Es una línea de base constante que mantuvo mi cabeza clara y los resultados predecibles.

Reglas del conjunto de datos

Qué recopilé

Lo mantuve pequeño: 45 imágenes para un estilo visual definido (apagado, líneas limpias, textura de papel suave). He tenido buenos resultados entre 30 y 120 imágenes. Menos de 20 tiende a sobreajustarse: más allá de 150 estás entrenando más un ajuste fino que un LoRA, y la ventaja de velocidad de Z-Image Turbo comienza a aplanarse.

La diversidad supera la cantidad

Dividí el conjunto:

70% imágenes de “aspecto central” (el estilo que quiero enseñar),
30% variedad de contexto (objetos/fondos diferentes para que el LoRA no vincule el estilo a una escena).

Los ángulos, la iluminación y las relaciones de aspecto variaban. Evité casi duplicados (sin tres tomas del mismo objeto desde un cambio de 5°).

Tamaño y formato

Resolución: 768px en el lado corto. Los modelos Turbo manejan 1024, pero 768 mantuve el entrenamiento más ligero y redujo artefactos en mis pruebas.
Formato: PNG o JPEG de alta calidad. Eliminé metadatos. Los perfiles incrustados grandes a veces confundieron un poco el color.
Recorte: Recorté para mantener el sujeto dominante pero no centrado cada vez. La simetría hace que los modelos sean complacientes.

Consejos para subtítulos

Probé dos pasadas: etiquetado automático primero, luego ediciones ligeras. Los subtítulos automáticos me llevaron al 70%. El último 30% importaba.

Mantén los subtítulos cortos y consistentes

1-2 oraciones o una lista de etiquetas compacta.
Menciona el token de estilo (más sobre tokens a continuación) más una palabra de clase.
No describas todo. Nombra solo lo que es estable e importante.

Ejemplo que usé:

“soka-style, minimalist illustration of a ceramic mug on a desk, soft paper texture, muted palette.”
“soka-style, simple plant in a clay pot, side light, clean negative space.”

Las palabras de clase ayudan

Si estás enseñando un estilo, usa palabras de clase (ilustración, foto, retrato, toma de producto). Si estás enseñando un objeto/personaje, usa lo que es (taza, mochila, planificador). Esto ayuda al LoRA a generalizar. Sin palabras de clase, mis primeras ejecuciones hicieron que el LoRA se aferrara a los diseños.

No sobreajustes con adjetivos

Eliminé adjetivos repetidos después de la segunda pasada. Si cada subtítulo dice “cálido, acogedor, suave”, el modelo se bloquea en esa vibra incluso cuando no la quieres. Mantuve un adjetivo para el tono.

Señales negativas

Agregué un negativo ligero en algunos subtítulos donde realmente importaba: “sin sombras duras”. No en todas partes, solo donde el contraste era incorrecto en la imagen sin procesar. Demasiados negativos lo hicieron terco durante la inferencia.

Pequeña nota: intenté ir sin subtítulos durante cinco imágenes como prueba. Los resultados se volvieron un poco más ruidosos. No terrible, pero no saltaría los subtítulos si la consistencia importa.

Línea de base de parámetros de entrenamiento

Estas son la configuración que me dio resultados constantes en WaveSpeed con Z-Image Turbo. Ejecuté tres entrenamientos cortos (aproximadamente 18-22 minutos cada uno en la GPU predeterminada en mi espacio de trabajo). Tus tiempos pueden variar.

Configuración principal que reutilicé

Base: Z-Image Turbo (última a partir de enero de 2026)
Rango LoRA (dim): 16 para estilo sutil: 32 cuando el estilo necesita más potencia. Me establecí en 16.
Alfa: rango coincidente (16) o mitad (8). Lo empareé.
Tasa de aprendizaje: 1e-4 para comenzar. 2e-4 si el estilo no se pega. 1e-3 se cocina demasiado rápido en mis pruebas. La documentación de entrenamiento de LoRA de Hugging Face recomienda comenzar con 1e-4 para la mayoría de modelos de difusión estable.
Tamaño de lote: 2-4. Usé 4 para mantener los pasos razonables.
Épocas/pasos: Apunta a 1-2 pasadas completas sobre los datos. Para 45 imágenes × 10 repeticiones ÷ lote 4 ≈ 112 pasos por época. Entrené 2 épocas (≈224 pasos). Más de 3 épocas comenzó a memorizar fondos.
Planificador: Coseno o constante con calentamiento. Usé coseno con calentamiento del 5%.
Precisión: bfloat16 cuando está disponible. Estuvo bien aquí.

Imágenes de regularización

Con LoRAs de estilo, no siempre agrego regularización. Para objetos o personajes, agrego 50-100 imágenes de clase (simple “taza”, “retrato”) para mantener la anatomía y las formas honestas. En Turbo, esto redujo notablemente hojas extrañas parecidas a manos en tomas de plantas.

Puntos de control y guardado

Habilité el guardado cada 50-80 pasos. Me permitió volver al punto más dulce, que para mi conjunto fue alrededor del paso 180. Los pasos posteriores se veían más limpios pero menos flexibles en los prompts.

Si quieres una verificación rápida de cordura: haz una ejecución de 60-90 pasos primero. No será perfecto, pero te dirá si tu conjunto de datos está enseñando la lección correcta.

Palabras de activación

Usé un token único para anclar el estilo: “soka-style”. Podrías usar algo como “kavli-ark” o “mivva”. Corto, inventado y poco probable que colisione con palabras reales.

Cómo escribí los subtítulos

Comienza subtítulos con el token una vez: “soka-style, minimalist illustration …”
Agrega una palabra de clase: ilustración, foto, render, lo que sea que coincida.
Mantenlo consistente en todo el conjunto de datos.

Cómo hice prompts

Positivo: “a product photo of a ceramic mug on a wooden desk, soka-style, soft paper texture, muted colors”
Negativo: “harsh shadows, heavy grain, text watermark, chromatic aberration”

Cuándo evitar palabras de activación

Si estás entrenando un objeto muy específico (una botella de marca, una mascota), usa un token + palabra de clase (“mivva-bottle”) en subtítulos, pero no tienes que forzar el token en cada prompt de inferencia. En mis pruebas, Turbo respetó la distribución del entrenamiento: a veces la palabra de clase sola era suficiente. El token ayudó cuando la escena se volvió compleja.

Una rareza: apilar dos tokens de estilo confundió el modelo (“soka-style, nova-style”). Obtuve una mezcla turbia. Un token a la vez fue más limpio.

Imágenes de validación

La validación me salvó de perseguir fantasmas.

Semillas fijas y una pequeña cuadrícula

Establecí tres prompts que me importan y los mantuve fijos en todas las ejecuciones:

“a ceramic mug on a desk, soka-style, soft paper texture, muted colors”
“a leafy plant by a window, soka-style, side light, clean background”
“a planner and pen, soka-style, top-down, gentle shadows”

Semilla: fija (usé 12345). Una semilla por prompt.
Pasos: 20-28 para Turbo. Más allá de 30 comenzó a sobreagudizar.
CFG: 3.5-6. Me gustó 4.5 para el equilibrio.
Muestreador: DPM++ 2M Karras o una variante Euler decente. Ambos se comportaron bien.
Tamaño: 768×768 para paridad con el recorte de entrenamiento.

También renderé el mismo conjunto una vez sin el token para ver si el estilo era demasiado dominante. En mi segunda ejecución, las tazas seguían viéndose “papelosas” sin el token, una pista de que había forzado el estilo demasiado. Bajar el peso de LoRA a 0.6 lo arregló.

Si puedes, mantén un panel de validación ligero abierto mientras entrenas. Ver los mismos tres prompts actualizarse es más tranquilo que inspeccionar muestras aleatorias.

Arreglos

Aquí está lo que salió mal y qué lo arregló.

Sobreajuste de fondos

Síntoma: la misma textura de papel aparece en escenas no relacionadas.
Arreglo: reducir repeticiones por imagen (de 10 a 6), agregar 6-10 fondos neutros, bajar el peso de LoRA en inferencia (0.6-0.75).

Deriva de color a beige

Síntoma: todo se calienta como un filtro de tarde tardía.
Arreglo: eliminar adjetivos repetitivos “cálido/suave/acogedor” en subtítulos: agregar 6 imágenes de tonos más frescos: establecer variedad de balance de blancos en el conjunto de datos: agregar “tonos demasiado cálidos” al negativo.

Prompts frágiles

Síntoma: pequeños cambios de prompt colapsan la composición.
Arreglo: aumentar la variedad del conjunto de datos en tipos de objetos y diseños: entrenar con una LR ligeramente menor (1e-4 en lugar de 2e-4): probar rango 32 si el estilo es complejo.

Publicar y reutilizar

Entrenar este LoRA fue manejable en gran medida porque construimos WaveSpeed para eliminar las partes molestas del proceso. En lugar de cablear scripts o cuidar GPUs, pude cargar un pequeño conjunto de datos, ejecutar entrenamientos rápidos de Turbo LoRA, comparar puntos de control y reutilizar el modelo en proyectos sin romper mi flujo.

Si estás cansado de la deriva de estilo, el sobreajuste o perder la pista de “la buena ejecución”,
→ Entrena un Z-Image Turbo LoRA en WaveSpeed Cuando la tercera ejecución se sintió constante, publiqué el LoRA dentro de WaveSpeed con una tarjeta de modelo simple:

Para qué es: estilo sutil de textura de papel, paleta apagada, formas limpias.
Para qué no es: retratos fotorealistas, productos de alto brillo, superposiciones de texto pesadas.
Configuración que funcionó: peso 0.6-0.85, CFG ~4.5, 20-26 pasos, salida 768.
Dos buenos prompts y una advertencia.
Notas de versión: entrenado en enero de 2026, rango 16, LR 1e-4, ~224 pasos.

Mantuve la licencia simple y agregué tres imágenes de validación. El futuro yo agradecerá al yo pasado por los detalles específicos.

Reutilizar

Apilamiento: Podría apilar este LoRA de estilo con un LoRA de objeto separado, pero mantuve solo uno a la vez. Si debes apilar, mantén el peso combinado por debajo de 1.0.
Fusión: No lo horneé en un punto de control. Todo el punto fue la flexibilidad.
Equipos: Compartí el enlace de LoRA y los tres prompts de validación fijos. Redujo el ir y venir de revisión. Las personas miraron la misma referencia.

Si eres nuevo en WaveSpeed o Z-Image Turbo, la documentación oficial vale la pena revisar antes de tu primera ejecución, especialmente sus notas sobre tasa de aprendizaje y rango. Las revisé después de mi primer paso y desearía haberlo hecho antes.

¿También juraste que “solo entenaría un pequeño LoRA”, solo para encontrar cada imagen dos noches después luciendo un “filtro beige eterno” o “fondo de textura de papel forzado”?

Rápido, descarga tus 45 imágenes en WaveSpeed e intenta Z-Image Turbo LoRA. Luego vuelve y cuéntame: ¿te ahorró la consistencia del encabezado, o hizo que todos tus objetos broten “tentáculos texturizados misteriosos”?