← Blog

GLM-5 für die KI-Bild- und Video-Prompt-Orchestrierung

Verwende GLM-5 als Reasoning-Schicht, um Prompts für Bild- und Videomodelle auf WaveSpeed zu generieren, zu verfeinern und zu verknüpfen.

9 min read
GLM-5 für die KI-Bild- und Video-Prompt-Orchestrierung

Hey, ich bin Dora. Ich versuchte, eine grobe Idee – „gedämpfte Keramiktasse auf einem Leinentisch, Morgenlicht” – in einen kurzen Produktclip zu verwandeln. Die Bilder waren in meinem Kopf klar. Die Prompts nicht. Ich sprang ständig zwischen Bild-, Video- und Upscaling-Tools hin und her und formulierte winzige Sätze um, die irgendwie alles veränderten. Es fühlte sich an, als würde ich in Bruchstücken arbeiten.

Ich versuchte, GLM-5 in die Mitte dieses Chaos einzufügen – nicht als Hauptdarsteller, sondern als die Person an der Tafel. Mein Ziel war simpel: GLM-5 als Prompt-Orchestrator für Bild- und Videomodelle einzusetzen. Der Satz, den ich in meinen Notizen festhielt, war „GLM-5 image video prompt”, denn das ist die Aufgabe: eine normale Beschreibung nehmen und sie zuverlässig in Prompts verwandeln, die nachgelagerte Modelle respektieren.

Warum ein starkes LLM für Bild-/Video-Pipelines wichtig ist

Ich brauche kein Modell, das alles macht. Ich brauche ein Modell, das Dinge klar, konsistent und jedes Mal gleich formuliert. Das entscheidet über Erfolg oder Misserfolg einer visuellen Pipeline.

Bei Bildern und Videos verändern winzige Wörter die Ausgaben erheblich – Kameraabstand, Brennweite, Materialadjektive, sogar die Reihenfolge, in der sie erscheinen. Wer schon einmal „diffuses Gegenlicht” am Ende hinzugefügt und beobachtet hat, wie sich die gesamte Stimmung verschiebt, kennt dieses Gefühl.

Früher habe ich jeden Prompt für jedes Tool von Hand entworfen: einen für FLUX, einen für WAN, einen dritten für den Upscaler. Es funktionierte, ließ sich aber nicht skalieren und kostete enorm viel Aufmerksamkeit. Ein starkes LLM in der Mitte erledigt für mich drei Dinge:

  • Sprache normalisieren: verwandelt ein lockeres Briefing in ein Schema, das jedes Modell versteht.
  • Leitplanken setzen: schränkt Stil und technische Vorgaben ein, damit Variationen nicht abdriften.
  • Gedächtnis bewahren: trägt Entscheidungen (Kamera, Farbpalette, Produktnotizen) zwischen Tools weiter, ohne dass ich alles neu eintippen muss.

Es geht nicht darum, beim Tippen Minuten zu sparen. Es geht darum, die kleinen Urteilsaufgaben zu sparen, die eine Session auffressen. Wenn GLM-5 die Struktur stabil hält, kann ich Veränderungen klar erkennen – was sich verschoben hat und warum.

GLM-5 als Prompt-Orchestrator

Ich war nicht auf der Suche nach Features. Ich fragte nur: Kann GLM-5 meine schlichte Beschreibung nehmen, sie für das richtige Modell aufbereiten und alles über mehrere Schritte hinweg im Blick behalten? So sah das in der Praxis aus.

FLUX-Prompts aus natürlichen Beschreibungen generieren

Der erste Durchlauf: GLM-5 ein kurzes einfaches Briefing übergeben und nach einem FLUX-fertigen Prompt mit expliziten Feldern fragen – Motiv, Kamera, Beleuchtung, Materialien, Hintergrund, Farbvorgaben, Negatives. Ich habe die Struktur aus den FLUX-Modellnotizen und einigen öffentlichen Prompt-Guides übernommen und sie absichtlich nüchtern gestaltet. Nüchtern ist wiederholbar.

Eine kleine Überraschung: GLM-5 war gut darin, fehlende Details stillschweigend zu ergänzen (z. B. ein 50-mm-Äquivalent hinzufügen, wenn ich vergessen hatte, eine Brennweite zu wählen). Ich bat es, Annahmen zu kennzeichnen, damit ich sie akzeptieren oder ablehnen konnte. Das sparte einige Rückfragen.

Was nicht so reibungslos lief: GLM-5 tendierte manchmal zu übertriebenen Adjektiven, die ich nicht wollte („ätherisch”, „atemberaubend”). Ich fügte eine Regel hinzu – „nur konkrete, fotografiefokussierte Sprache” –, und der Weichzeichner verschwand.

Kette: GLM-5-Prompt → WAN 2.5 Video → Upscale

Sobald der Bild-Prompt stabil war, ließ ich GLM-5 ihn in einen Video-Prompt für WAN 2.5 übersetzen. Die Zuordnung war nicht 1:1. Video braucht Bewegung, Timing und Einschränkungen, die Bild-Prompts ignorieren. Ich holte mir eine einfache Vorlage aus der WAN-Dokumentation und bat GLM-5, sie auszufüllen: Bewegungsabschnitte, Kamerabewegung (oder keine), Dauer, Motivhandlungen und Kontinuitätshinweise, damit der erste Frame zum gerenderten Bild passen konnte.

Zwei Feldnotizen:

  • Wenn ich GLM-5 standardmäßig Kamerabewegung hinzufügen ließ, animierte WAN 2.5 die Szene manchmal zu stark. Die Bewegung auf eine Achse zu beschränken oder sie statisch zu halten, führte zu saubereren Loops.
  • Die Farbtemperatur zwischen Bild und Video abzugleichen, war wichtiger als erwartet. Ich ließ GLM-5 einen numerischen Weißabgleichswert (z. B. 5200K) zwischen den Schritten mitführen.

Beim Upscaling hielt ich es schlicht und deterministisch: Prompt nur für Texturabsicht (matt vs. glänzend), Rauschtoleranz und Schärfungsneigung. Einfache Vorgaben führten zu weniger Artefakten.

Batch-Prompt-Erweiterung für A/B-Tests

Hier fühlte sich GLM-5 am meisten wie ein Kollege an. Ich bat es, fünf Mikrovariationen zu erstellen, die jeweils genau einen Parameter veränderten: Brennweite, Tischtextur, Tageszeit oder Sättigungsbereich. Kein poetisches Umformulieren. Nur ein sauberes Delta pro Variante. Es kennzeichnete jede mit einer Begründung und einem vorhergesagten Risiko (z. B. „kann Spitzlichter einführen”).

Es sparte anfangs keine Zeit – ich musste immer noch das Gute vom Schlechten trennen. Aber beim dritten Batch bemerkte ich, dass der mentale Aufwand geringer war. Die Struktur machte den Vergleich ehrlich. Ich konnte tatsächlich sehen, welche Wahl gewann – nicht nur, welcher Prompt besser klang.

Agentischer Workflow: GLM-5 plant mehrstufige Generierung

Ich habe nicht einfach den „Agentenmodus” eingeschaltet und bin gegangen. Ich bat GLM-5, die Schritte zu planen, Annahmen zu prüfen und dann auf mich zu warten. Ein einfacher Loop: planen → Prompts vorschlagen → meine Änderungen einholen → ausführen → zusammenfassen.

Es half, GLM-5 von Anfang an eine kleine Checkliste mitzugeben:

  • Ziel in einem Satz klären.
  • Nach Unbekanntem fragen (Kamera, Palette, Bewegung).
  • Erste Prompts für Bild erstellen, dann ins Video übersetzen.
  • Einen gemeinsamen Einschränkungsblock pflegen: Produkt-SKU-Notizen, Markenfarben, Seitenverhältnis, maximale Bewegung.
  • Nach jedem Render festhalten, was sich geändert hat und was beibehalten werden soll.

Beispiel: Produktshooting → 5 Winkel → Video

Ich probierte das mit einem minimalen Produktshooting: eine Keramiktasse, Leinentisch, weiches Morgenlicht. Die Aufgabe: fünf Standbilder aus verschiedenen Winkeln, dann ein 6–8 Sekunden langer Loop.

Was ich beobachtete (Februar 2026, drei Sessions):

  • Schritt 1, Winkelset: GLM-5 schlug fünf Kamerawinkel mit expliziten Abständen und Höhen vor (z. B. 1,2 m hoch, 0,6 m Abstand, 35° nach unten). Diese Präzision war entscheidend. Sie hielt die Kompositionen über Varianten hinweg konsistent.
  • Schritt 2, Texturkontrolle: Für Leinen empfahl GLM-5, starkes Seitenlicht zu vermeiden, um beim Upscaling Moiré zu verhindern. Es hatte nicht immer recht, aber die Vorsicht rettete eine rauschige Aufnahme.
  • Schritt 3, Video-Übergabe: Beim Wechsel zu WAN 2.5 behandelte es das Hauptbild als „Frame null”. Es übernahm Objektiv, Weißabgleich und Belichtungskorrektur. Weniger Überraschungen.
  • Schritt 4, Plausibilitätschecks: Alle zwei Renders fasste GLM-5 die Abweichungen zusammen: „Wärme +6 %, Schatten tiefer, Reflexionen eingeführt.” Diese kleinen Notizen erleichterten es zu entscheiden, wann man aufhört.

Grenzen: Ich ließ GLM-5 keine Musik oder Rhythmusvorgaben über die Bewegungsnotizen hinaus auswählen. Wenn es versuchte, „kreativ” zu sein, fügte es Gesten hinzu, die nicht zum Produkt passten. Zurückhaltung funktionierte hier besser.

Prompt-Qualitätsvergleich: GLM-5 vs. GLM-4.7 Ausgaben

Ich ließ dieselbe natürliche Beschreibung durch GLM-4.7 und GLM-5 laufen und verwendete die Ausgaben unverändert. Kein Labortest, nur die Art von Probe, die ich vor einer Deadline machen würde.

Verwendetes Briefing: „Gedämpfte Keramiktasse auf einem Leinentisch, weiches Morgenlicht, neutrale Palette, kein Branding. Sauber, ruhig, lebensecht.”

Was ich sah:

  • Strukturdisziplin: GLM-5 respektierte das Schema häufiger. GLM-4.7 driftete in Stilphrasen ab („verträumt”, „elegant”), die FLUX in Richtung Lifestyle-Look drängten. GLM-5 blieb bei Kamera, Licht, Material.
  • Numerische Anker: GLM-5 bot bescheidene numerische Standardwerte (35 mm, f/4, 5200K) an und kennzeichnete sie als Annahmen. GLM-4.7 neigte dazu, Zahlen wegzulassen, wenn nicht danach gefragt.
  • Negative Prompts: GLM-5 enthielt praktische Negatives („Bokeh-Bälle, Glanzlichter, Teleobjektiv-Kompression”), die Artefakte in meinen Testbildern reduzierten. GLM-4.7s Negatives waren generisch.
  • Übersetzung ins Video: GLM-5 fügte ein einfaches Bewegungsskript mit Timing hinzu; GLM-4.7 formulierte den Bild-Prompt meist mit „kurzes Video” um. WAN 2.5 respektierte GLM-5s Timing besser.

Kleiner Gegenpunkt: GLM-4.7 produzierte manchmal einen ansprechenderen Prompt, der meiner Meinung nach für Moodboards funktionierte. Wenn man im Konzeptionsmodus ist, kann dieser Ton nützlich sein. Für den Produktions-Übergabe bevorzugte ich jedoch GLM-5s Zurückhaltung.

Diese Ergebnisse lieferten mir Sprachmuster, die GLM-5 zuverlässig wiederholen konnte.

Code-Beispiel – vollständige Pipeline mit WaveSpeed SDK

Unten ein gekürztes Beispiel, das die Form des von mir verwendeten Workflows zeigt. Ersetzen Sie Schlüssel und Endpunkte durch Ihre eigenen. Ich habe eine Variation davon am 9. Februar 2026 ausgeführt. Es ist nicht elegant. Es ist zuverlässig.

# pip install wavespeed sdk hypothetical

from wavespeed import GLM5, Flux, WAN25, Upscaler


glm = GLM5(api_key=GLM5_KEY)

flux = Flux(api_key=FLUX_KEY)

wan = WAN25(api_key=WAN_KEY)

up = Upscaler(api_key=UPSCALE_KEY)


brief = {

"subject": "muted ceramic mug on a linen table",

"mood": "soft morning light, neutral palette",

"constraints": {"aspect_ratio": "4:5", "brand_colors": ["#E8E4DA", "#8D8A83"]}

}

# 1) GLM-5 bitten, das Briefing für FLUX zu normalisieren

flux_prompt = glm.generate(

system="Return a FLUX-friendly prompt with fields: subject, camera, lighting, materials, background, color, negatives. "

"Photography-first, numeric where helpful, minimal adjectives. Label assumptions.",

user=brief,

format={

"type": "object",

"properties": {

"subject": {"type": "string"},

"camera": {"type": "object"},

"lighting": {"type": "object"},

"materials": {"type": "object"},

"background": {"type": "string"},

"color": {"type": "object"},

"negatives": {"type": "array", "items": {"type": "string"}},

"assumptions": {"type": "array"}

},

"required": ["subject", "camera", "lighting", "negatives"]

}

)

# 2) Bild rendern

img = flux.generate_image(prompt=flux_prompt, seed=4217, steps=30, guidance=3.5)

# 3) In WAN 2.5 Video-Prompt übersetzen

wan_prompt = glm.generate(

system="Translate the FLUX prompt into a WAN 2.5 prompt. Include: duration 6-8s, motion beats, camera movement (static or gentle pan), "

"continuity with the image (lens, white balance), and a list of negatives.",

user={"flux_prompt": flux_prompt, "reference_frame": img.preview_url}

)


vid = wan.generate_video(prompt=wan_prompt, seed=4217, fps=24, duration=7)

# 4) Upscale mit kontrollierter Schärfung + Rauschreduktion

final = up.enhance(

input=vid.keyframe(0),

noise_reduction="low",

sharpening="moderate",

texture_bias="matte"

)

# 5) Abweichungszusammenfassung protokollieren

drift = glm.generate(

system="Summarize differences between target brief and outputs. 3 bullets: warmth, contrast, motion.",

user={"brief": brief, "image": img.metrics, "video": vid.metrics}

)

print(drift)

Ich halte die LLM-Prompts nah am Code, damit mein zukünftiges Ich sehen kann, warum Entscheidungen getroffen wurden. Wer YAML-Templates bevorzugt, kann das auch verwenden. Das Wichtige ist, dass GLM-5 strukturierte Felder zurückgibt, die man direkt an Render-Funktionen übergeben kann, ohne sie zu bearbeiten.

Ein paar kleine Leitplanken, die geholfen haben:

  • Alles mit Seed festlegen, bis der Basis-Look gefällt. Dann Seeds nur dort freigeben, wo Variation gewünscht ist.
  • Weißabgleich als Zahl mitführen, nicht als Gefühl.
  • GLM-5 bitten, Annahmen aufzulisten und sie vor dem Rendern akzeptieren oder ablehnen zu können.

Wenn Ihr Stack kein WaveSpeed verwendet, gilt die Idee trotzdem. Das LLM sitzt zwischen Ihren Notizen und den Modell-Endpunkten, übersetzt und hält die Übersicht.