← Blog

GLM-5 para Orquestación de Prompts de Imágenes y Vídeos con IA

Usa GLM-5 como capa de razonamiento para generar, refinar y encadenar prompts para modelos de imágenes y vídeos en WaveSpeed.

10 min read
GLM-5 para Orquestación de Prompts de Imágenes y Vídeos con IA

Hola, soy Dora. Estaba intentando convertir una idea vaga, “taza de cerámica apagada sobre un mantel de lino, luz de mañana”, en un breve clip de producto. Las imágenes estaban claras en mi cabeza. Los prompts no. Seguía saltando entre herramientas de imagen, vídeo y escalado, reescribiendo pequeñas frases que, de algún modo, lo cambiaban todo. Sentía que trabajaba en fragmentos.

Intenté integrar GLM-5 en medio de ese caos, no como el protagonista, sino como la persona en la pizarra. Mi objetivo era simple: tratar a GLM-5 como el orquestador de prompts para modelos de imagen y vídeo. La frase que guardé en mis notas fue “GLM-5 image video prompt”, porque ese es el trabajo: tomar una descripción normal y convertirla de forma fiable en prompts que los modelos posteriores respeten.

Por qué un LLM potente importa en los pipelines de imagen/vídeo

No necesito un modelo que haga todo. Necesito un modelo que diga las cosas con claridad, de la misma manera, cada vez. Eso es lo que decide el éxito o el fracaso de un pipeline visual.

Con imágenes y vídeo, palabras pequeñas producen grandes cambios en los resultados: distancia de cámara, longitud focal, adjetivos de material, incluso el orden en que aparecen. Si alguna vez añadiste “luz trasera difusa” al final y viste cómo cambiaba todo el ambiente, sabes de lo que hablo.

Antes elaboraba cada prompt a mano para cada herramienta: uno para FLUX, otro para WAN, un tercero para el escalador. Funcionaba, pero no escalaba y agotaba la atención. Un LLM potente en el medio me hace tres cosas:

  • Normaliza el lenguaje: convierte un brief informal en un esquema que cada modelo entiende.
  • Añade barreras de seguridad: limita el estilo y las especificaciones técnicas para que las variaciones no se desvíen.
  • Mantiene la memoria: lleva las elecciones (cámara, paleta, notas del producto) entre herramientas sin que yo tenga que reescribirlas.

No se trata de ahorrar minutos al escribir. Se trata de ahorrar esas pequeñas decisiones de juicio que consumen una sesión. Cuando GLM-5 mantiene la estructura estable, puedo ver los cambios con claridad: qué cambió y por qué.

GLM-5 como orquestador de prompts

No fui a buscar funciones. Solo pregunté: ¿puede GLM-5 tomar mi descripción sencilla, darle forma para el modelo adecuado y llevar el seguimiento de todo a lo largo de los pasos? Así fue en la práctica.

Generar prompts para FLUX a partir de descripciones naturales

El primer intento: darle a GLM-5 un brief corto en español sencillo y pedir un prompt listo para FLUX con campos explícitos: sujeto, cámara, iluminación, materiales, fondo, restricciones de color, negativos. Tomé la estructura de las notas del modelo FLUX y algunas guías de prompts públicas, y la hice aburrida adrede. Lo aburrido es repetible.

Una pequeña sorpresa: GLM-5 era bueno infiriendo en silencio los detalles que faltaban (por ejemplo, añadir un equivalente de 50mm cuando olvidé elegir la longitud focal). Le pedí que etiquetara las suposiciones para poder aceptarlas o rechazarlas. Eso redujo varios intercambios de mensajes.

Lo que no fue tan fluido: GLM-5 a veces usaba por defecto adjetivos recargados que no quería (“etéreo”, “impresionante”). Añadí una regla, “lenguaje concreto, prioritariamente fotográfico”, y la paja desapareció.

Cadena: prompt GLM-5 → vídeo WAN 2.5 → escalado

Una vez que el prompt de imagen se estabilizó, le pedí a GLM-5 que lo tradujera a un prompt de vídeo para WAN 2.5. El mapeo no era 1:1. El vídeo necesita movimiento, tiempos y restricciones que los prompts de imagen ignoran. Usé una plantilla sencilla de la documentación de WAN y le pedí a GLM-5 que rellenara: beats de movimiento, movimiento de cámara (o ninguno), duración, acciones del sujeto y notas de continuidad para que el primer fotograma pudiera coincidir con el render de imagen.

Dos notas de campo:

  • Si dejaba que GLM-5 añadiera movimiento de cámara por defecto, WAN 2.5 a veces sobreanimaba la escena. Bloquear el movimiento a un solo eje o mantenerlo estático producía bucles más limpios.
  • Hacer coincidir la temperatura de color entre imagen y vídeo importó más de lo que esperaba. Hice que GLM-5 mantuviera un objetivo numérico de balance de blancos (por ejemplo, 5200K) entre los pasos.

Para el escalado, lo mantuve aburrido y determinista: prompt solo para la intención de textura (mate vs. brillante), tolerancia al ruido y sesgo de nitidez. Una guía simple produjo menos artefactos.

Expansión por lotes de prompts para pruebas A/B

Aquí es donde GLM-5 se sintió más como un compañero de trabajo. Le pedía que generara cinco microvariaciones que cambiaran exactamente una variable: longitud focal, textura de la mesa, hora del día o rango de saturación. Sin reformulaciones poéticas. Solo un delta limpio por variante. Lo etiquetaba con un motivo y un riesgo previsto (por ejemplo, “puede introducir brillos especulares”).

Al principio no ahorraba tiempo, aún tenía que distinguir lo bueno de lo malo. Pero al tercer lote, noté que el esfuerzo mental era menor. La estructura hacía la comparación honesta. Podía ver realmente qué elección ganaba, no solo qué prompt sonaba mejor.

Flujo de trabajo agéntico: GLM-5 planifica la generación en varios pasos

No activé el “modo agente” y me fui. Le pedí a GLM-5 que planificara los pasos, comprobara las suposiciones y luego esperara. Un bucle simple: planificar → proponer prompts → recibir mis ediciones → ejecutar → resumir.

Ayudó darle a GLM-5 una pequeña lista de verificación desde el principio:

  • Aclarar el objetivo en una oración.
  • Preguntar sobre lo desconocido (cámara, paleta, movimiento).
  • Producir los primeros prompts para imagen, luego traducirlos a vídeo.
  • Mantener un bloque de restricciones compartidas: notas de SKU del producto, colores de marca, relación de aspecto, movimiento máximo.
  • Después de cada render, registrar qué cambió y qué conservar.

Ejemplo: sesión de producto → 5 ángulos → vídeo

Lo probé con una sesión de producto mínima: una taza de cerámica, mesa de lino, luz suave de mañana. El trabajo: cinco fotos fijas desde distintos ángulos, luego un bucle de 6 a 8 segundos.

Lo que observé (febrero de 2026, tres sesiones):

  • Paso 1, Conjunto de ángulos: GLM-5 propuso cinco ángulos de cámara con distancias y alturas explícitas (por ejemplo, 1,2 m de altura, 0,6 m de distancia, 35° hacia abajo). Esa especificidad importó. Mantuvo las composiciones consistentes entre variantes.
  • Paso 2, Control de textura: Para el lino, GLM-5 sugirió evitar la luz lateral fuerte para prevenir el moiré al escalar. No siempre tenía razón, pero la precaución salvó una toma ruidosa.
  • Paso 3, Entrega a vídeo: Al pasar a WAN 2.5, trató el fotograma principal como “fotograma cero”. Llevó el objetivo, el balance de blancos y la compensación de exposición. Menos sorpresas.
  • Paso 4, Revisiones de cordura: Cada dos renders, GLM-5 resumía la deriva: “calidez +6%, sombras más profundas, reflejos introducidos”. Esas pequeñas notas hacían más fácil decidir cuándo parar.

Limitaciones: No dejé que GLM-5 eligiera música ni beats de ritmo más allá de las notas de movimiento. Cuando intentaba ser “creativo”, añadía gestos que no encajaban con el producto. La contención funcionó mejor aquí.

Comparación de calidad de prompts: resultados de GLM-5 vs. GLM-4.7

Pasé la misma descripción natural por GLM-4.7 y GLM-5, luego usé los resultados sin modificar. No fue una prueba de laboratorio, sino el tipo de ensayo que haría antes de un plazo.

Brief que usé: “Taza de cerámica apagada sobre una mesa de lino, luz suave de mañana, paleta neutra, sin marca. Limpio, tranquilo, fiel a la vida real.”

Lo que vi:

  • Disciplina de estructura: GLM-5 respetó el esquema con más frecuencia. GLM-4.7 derivaba hacia frases de estilo (“soñador”, “elegante”) que empujaban a FLUX hacia un look de estilo de vida. GLM-5 se ceñía a cámara, luz, material.
  • Anclas numéricas: GLM-5 ofreció valores numéricos modestos por defecto (35mm, f/4, 5200K) y los etiquetó como suposiciones. GLM-4.7 tendía a omitir números a menos que se le pidieran.
  • Prompts negativos: GLM-5 incluía negativos prácticos (“bokeh balls, brillos brillantes, compresión telefoto”) que redujeron artefactos en mis imágenes de prueba. Los negativos de GLM-4.7 eran genéricos.
  • Traducción a vídeo: GLM-5 añadió un guión de movimiento simple con tiempos; GLM-4.7 básicamente reformulaba el prompt de imagen añadiendo “vídeo corto”. WAN 2.5 respetó más los tiempos de GLM-5.

Un pequeño contrapunto: GLM-4.7 a veces producía un prompt de sonido más agradable que, a mi ojo, funcionaba para mood boards. Si estás en modo conceptual, ese tono puede ser útil. Pero para la entrega en producción, preferí la contención de GLM-5.

Estos me dieron patrones de lenguaje que GLM-5 podía repetir de forma fiable.

Ejemplo de código — pipeline completo con WaveSpeed SDK

A continuación hay un ejemplo simplificado para mostrar la forma del flujo de trabajo que usé. Reemplaza las claves y los endpoints con los tuyos. Ejecuté una variación de esto el 9 de febrero de 2026. No es elegante. Es fiable.

# pip install wavespeed sdk hypothetical

from wavespeed import GLM5, Flux, WAN25, Upscaler


glm = GLM5(api_key=GLM5_KEY)

flux = Flux(api_key=FLUX_KEY)

wan = WAN25(api_key=WAN_KEY)

up = Upscaler(api_key=UPSCALE_KEY)


brief = {

"subject": "muted ceramic mug on a linen table",

"mood": "soft morning light, neutral palette",

"constraints": {"aspect_ratio": "4:5", "brand_colors": ["#E8E4DA", "#8D8A83"]}

}

# 1) Pedir a GLM-5 que normalice el brief para FLUX

flux_prompt = glm.generate(

system="Return a FLUX-friendly prompt with fields: subject, camera, lighting, materials, background, color, negatives. "

"Photography-first, numeric where helpful, minimal adjectives. Label assumptions.",

user=brief,

format={

"type": "object",

"properties": {

"subject": {"type": "string"},

"camera": {"type": "object"},

"lighting": {"type": "object"},

"materials": {"type": "object"},

"background": {"type": "string"},

"color": {"type": "object"},

"negatives": {"type": "array", "items": {"type": "string"}},

"assumptions": {"type": "array"}

},

"required": ["subject", "camera", "lighting", "negatives"]

}

)

# 2) Render de imagen

img = flux.generate_image(prompt=flux_prompt, seed=4217, steps=30, guidance=3.5)

# 3) Traducir al prompt de vídeo WAN 2.5

wan_prompt = glm.generate(

system="Translate the FLUX prompt into a WAN 2.5 prompt. Include: duration 6-8s, motion beats, camera movement (static or gentle pan), "

"continuity with the image (lens, white balance), and a list of negatives.",

user={"flux_prompt": flux_prompt, "reference_frame": img.preview_url}

)


vid = wan.generate_video(prompt=wan_prompt, seed=4217, fps=24, duration=7)

# 4) Escalado con nitidez controlada + ruido

final = up.enhance(

input=vid.keyframe(0),

noise_reduction="low",

sharpening="moderate",

texture_bias="matte"

)

# 5) Registrar resumen de deriva

drift = glm.generate(

system="Summarize differences between target brief and outputs. 3 bullets: warmth, contrast, motion.",

user={"brief": brief, "image": img.metrics, "video": vid.metrics}

)

print(drift)

Mantengo los prompts del LLM cerca del código para que el yo del futuro pueda ver por qué se tomaron ciertas decisiones. Si prefieres plantillas YAML, también funciona. Lo importante es que GLM-5 devuelva campos estructurados que puedas pasar directamente a las funciones de render sin editar.

Algunas pequeñas barreras de seguridad que ayudaron:

  • Fija todo con semillas hasta que te guste el aspecto base. Luego libera las semillas solo donde quieres variación.
  • Lleva el balance de blancos como un número, no como un ambiente.
  • Pide a GLM-5 que liste las suposiciones y déjate aceptarlas o rechazarlas antes de renderizar.

Si tu stack no usa WaveSpeed, la idea sigue siendo válida. El LLM se sienta entre tus notas y los endpoints del modelo, traduciendo y llevando la cuenta.