GLM-5 para Orquestração de Prompts de Imagem e Vídeo com IA
Use o GLM-5 como camada de raciocínio para gerar, refinar e encadear prompts para modelos de imagem e vídeo no WaveSpeed.
Olá, sou a Dora. Eu estava tentando transformar uma ideia bruta — “caneca de cerâmica fosca em uma mesa de linho, luz da manhã” — em um pequeno clipe de produto. As imagens estavam claras na minha cabeça. Os prompts não estavam. Fiquei alternando entre ferramentas de imagem, vídeo e upscaling, reescrevendo pequenas frases que, de alguma forma, mudavam tudo. Parecia que eu estava trabalhando em fragmentos.
Tentei inserir o GLM-5 no meio desse caos — não como protagonista, mas como a pessoa no quadro branco. Meu objetivo era simples: usar o GLM-5 como orquestrador de prompts para modelos de imagem e vídeo. A frase que mantive nas minhas anotações foi “GLM-5 image video prompt”, porque é exatamente isso: pegar uma descrição comum e transformá-la de forma confiável em prompts que os modelos subsequentes respeitam.
Por que um LLM robusto importa em pipelines de imagem/vídeo
Não preciso que um modelo faça tudo. Preciso que um modelo expresse as coisas com clareza, da mesma forma, sempre. É isso que decide o sucesso ou o fracasso de um pipeline visual.
Com imagens e vídeo, palavras pequenas causam grandes mudanças nos resultados — distância da câmera, distância focal, adjetivos de material, até mesmo a ordem em que aparecem. Se você já adicionou “luz de fundo difusa” no final e viu o clima inteiro mudar, você sabe exatamente essa sensação.
Eu costumava criar cada prompt manualmente para cada ferramenta: um para FLUX, outro para WAN, um terceiro para o upscaler. Funcionava, mas não escalava, e consumia muita atenção. Um LLM robusto no meio faz três coisas por mim:
- Normaliza a linguagem: transforma um briefing casual em um esquema que cada modelo entende.
- Adiciona limites: restringe estilo e especificações técnicas para que as variações não se dispersem.
- Mantém memória: carrega escolhas (câmera, paleta, notas do produto) entre as ferramentas sem que eu precise redigitar.
Isso não é sobre economizar minutos de digitação. É sobre economizar as pequenas decisões de julgamento que consomem uma sessão. Quando o GLM-5 mantém a estrutura estável, consigo ver as mudanças claramente — o que mudou e por quê.
GLM-5 como orquestrador de prompts
Não fui atrás de recursos específicos. Apenas perguntei: o GLM-5 consegue pegar minha descrição simples, adaptá-la para o modelo certo e manter o controle de tudo ao longo das etapas? Veja como ficou na prática.
Gerar prompts FLUX a partir de descrições naturais
Na primeira passagem: alimento o GLM-5 com um briefing curto em linguagem natural e peço um prompt pronto para FLUX com campos explícitos — assunto, câmera, iluminação, materiais, fundo, restrições de cor, negativos. Tomei a estrutura emprestada das notas do modelo FLUX e de alguns guias públicos de prompts, tornando-a propositalmente enfadonha. Enfadonho é repetível.
Uma pequena surpresa: o GLM-5 era bom em inferir silenciosamente detalhes ausentes (por exemplo, adicionando um equivalente de 50mm quando eu esquecia de escolher a distância focal). Pedi que ele rotulasse as suposições para que eu pudesse aceitá-las ou rejeitá-las. Isso reduziu algumas idas e vindas.
O que não correu tão bem: o GLM-5 às vezes recorria a adjetivos ornamentados que eu não queria (“etéreo”, “deslumbrante”). Adicionei uma regra — “linguagem concreta, fotografia em primeiro lugar” — e o excesso desapareceu.
Encadeamento: prompt GLM-5 → vídeo WAN 2.5 → upscale
Assim que o prompt de imagem se estabilizou, pedi ao GLM-5 que o traduzisse em um prompt de vídeo para o WAN 2.5. O mapeamento não era 1:1. Vídeo precisa de movimento, temporização e restrições que prompts de imagem ignoram. Usei um modelo simples da documentação do WAN e pedi ao GLM-5 que preenchesse: batidas de movimento, movimento de câmera (ou ausência dele), duração, ações do assunto e notas de continuidade para que o primeiro quadro pudesse corresponder ao render de imagem.
Duas observações de campo:
- Se eu deixasse o GLM-5 adicionar movimento de câmera por padrão, o WAN 2.5 às vezes animava demais a cena. Travar o movimento em um eixo ou mantê-lo estático resultava em loops mais limpos.
- Combinar a temperatura de cor entre imagem e vídeo importou mais do que eu esperava. Fiz o GLM-5 carregar um alvo numérico de balanço de branco (por exemplo, 5200K) entre as etapas.
Para o upscaling, mantive tudo simples e determinístico: prompt apenas para intenção de textura (fosco vs. brilhante), tolerância a ruído e viés de nitidez. Uma orientação simples resultou em menos artefatos.
Expansão em lote de prompts para testes A/B
É aqui que o GLM-5 mais pareceu um colega de trabalho. Eu pedia que gerasse cinco micro-variações que cada uma mudasse exatamente uma variável: distância focal, textura da mesa, hora do dia ou faixa de saturação. Sem reformulações poéticas. Apenas um delta limpo por variante. Ele rotulava cada uma com um motivo e um risco previsto (por exemplo, “pode introduzir realces especulares”).
Não economizou tempo no início — eu ainda precisava separar o bom do ruim. Mas a partir do terceiro lote, percebi que o esforço mental era menor. A estrutura tornava a comparação honesta. Eu conseguia ver de verdade qual escolha venceu, não apenas qual prompt soava mais bonito.
Fluxo de trabalho agêntico: GLM-5 planeja a geração em múltiplas etapas
Não ativei o “modo agente” e fui embora. Pedi ao GLM-5 que planejasse as etapas, verificasse as suposições e depois esperasse por mim. Um loop simples: planejar → propor prompts → receber minhas edições → executar → resumir.
Ajudou fornecer ao GLM-5 uma pequena lista de verificação logo de início:
- Esclarecer o objetivo em uma frase.
- Perguntar sobre incógnitas (câmera, paleta, movimento).
- Produzir prompts de primeira passagem para imagem, depois traduzir para vídeo.
- Manter um bloco de restrições compartilhadas: notas do SKU do produto, cores da marca, proporção de aspecto, movimento máximo.
- Após cada render, registrar o que mudou e o que manter.
Exemplo: sessão de produto → 5 ângulos → vídeo
Experimentei isso com uma sessão de produto minimalista: uma caneca de cerâmica, mesa de linho, luz suave da manhã. A tarefa: cinco fotos estáticas de ângulos diferentes, depois um loop de 6 a 8 segundos.
O que observei (fevereiro de 2026, três sessões):
- Etapa 1, Conjunto de ângulos: o GLM-5 propôs cinco ângulos de câmera com distâncias e alturas explícitas (por exemplo, 1,2 m de altura, 0,6 m de distância, 35° para baixo). Essa especificidade importou. Manteve as composições consistentes entre as variantes.
- Etapa 2, Controle de textura: para o linho, o GLM-5 sugeriu evitar luz lateral forte para prevenir moiré durante o upscaling. Nem sempre estava certo, mas a cautela salvou uma tomada ruidosa.
- Etapa 3, Transição para vídeo: ao passar para o WAN 2.5, ele tratou o still principal como “quadro zero”. Carregou lente, balanço de branco e compensação de exposição. Menos surpresas.
- Etapa 4, Verificações de sanidade: a cada dois renders, o GLM-5 resumia a deriva: “calor +6%, sombras mais profundas, reflexos introduzidos.” Essas pequenas notas facilitaram decidir quando parar.
Limitações: não deixei o GLM-5 escolher música ou batidas de ritmo além das notas de movimento. Quando tentou ser “criativo”, adicionou gestos que não combinavam com o produto. A contenção funcionou melhor aqui.
Comparação de qualidade de prompt: saídas do GLM-5 vs. GLM-4.7
Passei a mesma descrição natural pelo GLM-4.7 e pelo GLM-5, e usei as saídas sem alterações. Não foi um teste de laboratório, apenas o tipo de experimento que eu faria antes de um prazo.
Briefing que usei: “Caneca de cerâmica fosca em uma mesa de linho, luz suave da manhã, paleta neutra, sem marca. Limpo, tranquilo, fiel à realidade.”
O que observei:
- Disciplina de estrutura: o GLM-5 respeitou o esquema com mais frequência. O GLM-4.7 derivava para frases de estilo (“onírico”, “elegante”) que empurravam o FLUX em direção a um visual lifestyle. O GLM-5 manteve-se em câmera, luz, material.
- Âncoras numéricas: o GLM-5 ofereceu padrões numéricos modestos (35mm, f/4, 5200K) e os rotulou como suposições. O GLM-4.7 tendia a omitir números, a menos que fossem solicitados.
- Prompts negativos: o GLM-5 incluiu negativos práticos (“bokeh balls, realces brilhantes, compressão de telefoto”) que reduziram artefatos nas minhas imagens de teste. Os negativos do GLM-4.7 eram genéricos.
- Tradução para vídeo: o GLM-5 adicionou um script de movimento simples e temporização; o GLM-4.7 em sua maioria reafirmava o prompt de imagem com “vídeo curto”. O WAN 2.5 respeitou mais a temporização do GLM-5.
Pequeno contraponto: o GLM-4.7 às vezes produzia um prompt de som mais agradável que, aos meus olhos, funcionava para mood boards. Se você está em modo de conceituação, esse tom pode ser útil. Mas para entrega em produção, preferi a contenção do GLM-5.
Esses resultados me deram padrões de linguagem que o GLM-5 conseguia repetir de forma confiável.
Exemplo de código — pipeline completo com WaveSpeed SDK
Abaixo está um exemplo resumido para mostrar a forma do fluxo de trabalho que usei. Substitua as chaves e endpoints pelos seus próprios. Executei uma variação disso em 9 de fevereiro de 2026. Não é elegante. É confiável.
# pip install wavespeed sdk hypothetical
from wavespeed import GLM5, Flux, WAN25, Upscaler
glm = GLM5(api_key=GLM5_KEY)
flux = Flux(api_key=FLUX_KEY)
wan = WAN25(api_key=WAN_KEY)
up = Upscaler(api_key=UPSCALE_KEY)
brief = {
"subject": "muted ceramic mug on a linen table",
"mood": "soft morning light, neutral palette",
"constraints": {"aspect_ratio": "4:5", "brand_colors": ["#E8E4DA", "#8D8A83"]}
}
# 1) Pedir ao GLM-5 que normalize o briefing para FLUX
flux_prompt = glm.generate(
system="Return a FLUX-friendly prompt with fields: subject, camera, lighting, materials, background, color, negatives. "
"Photography-first, numeric where helpful, minimal adjectives. Label assumptions.",
user=brief,
format={
"type": "object",
"properties": {
"subject": {"type": "string"},
"camera": {"type": "object"},
"lighting": {"type": "object"},
"materials": {"type": "object"},
"background": {"type": "string"},
"color": {"type": "object"},
"negatives": {"type": "array", "items": {"type": "string"}},
"assumptions": {"type": "array"}
},
"required": ["subject", "camera", "lighting", "negatives"]
}
)
# 2) Render de imagem
img = flux.generate_image(prompt=flux_prompt, seed=4217, steps=30, guidance=3.5)
# 3) Traduzir para prompt de vídeo WAN 2.5
wan_prompt = glm.generate(
system="Translate the FLUX prompt into a WAN 2.5 prompt. Include: duration 6-8s, motion beats, camera movement (static or gentle pan), "
"continuity with the image (lens, white balance), and a list of negatives.",
user={"flux_prompt": flux_prompt, "reference_frame": img.preview_url}
)
vid = wan.generate_video(prompt=wan_prompt, seed=4217, fps=24, duration=7)
# 4) Upscale com nitidez controlada + ruído
final = up.enhance(
input=vid.keyframe(0),
noise_reduction="low",
sharpening="moderate",
texture_bias="matte"
)
# 5) Registrar resumo de deriva
drift = glm.generate(
system="Summarize differences between target brief and outputs. 3 bullets: warmth, contrast, motion.",
user={"brief": brief, "image": img.metrics, "video": vid.metrics}
)
print(drift)
Mantenho os prompts do LLM próximos ao código para que o eu do futuro possa ver por que as escolhas foram feitas. Se você preferir templates YAML, também funciona. A parte importante é que o GLM-5 retorna campos estruturados que você pode passar diretamente para as funções de render sem edição.
Algumas pequenas salvaguardas que ajudaram:
- Fixe seeds em tudo até gostar da aparência base. Depois libere seeds apenas onde você quer variação.
- Carregue o balanço de branco como número, não como sensação.
- Peça ao GLM-5 que liste as suposições e deixe você aceitá-las ou rejeitá-las antes de renderizar.
Se seu stack não usa WaveSpeed, a ideia ainda se aplica. O LLM fica entre suas anotações e os endpoints do modelo, traduzindo e mantendo o controle.





