Genie 3 Prompts: Effektive Weltbeschreibungen verfassen

Hallo, hier ist Dora. Ende Januar 2026 erhielt ich beim Testen eines Genie 3-Builds immer wieder schwebende, folgenlose Welten – beim ersten Frame wunderschön, aber mit einer Physik, die sich wie ein Traum anfühlte. Meine Prompts klangen in meinem Kopf richtig, aber die Ausgaben drifteten ab. Türen öffneten sich nicht ganz. Die Schwerkraft vergaß sich selbst.

Also verlangsamte ich mich. Ich behandelte Prompts weniger wie Poesie und mehr wie eine kurze, klare Spezifikation. Sobald ich das tat, begannen die Welten zusammenzuhalten. Nicht perfekt, aber stabiler. So gehe ich jetzt an Genie 3-Prompts heran – orientiert an dem, was bei echten Aufgaben tatsächlich geholfen hat.

Prompt-Struktur für Weltmodelle

Ich hörte auf, blumige Prompts zu schreiben, und begann stattdessen mit kleinen, nüchternen – der Art, die ein Teammitglied überfliegen und darauf aufbauen könnte. Weltmodelle reagieren gut darauf. Mein Grundgerüst besteht aus vier Teilen:

Setting: Wo und wann. Konkret bleiben. „Enge Gasse in der Dämmerung”, nicht „mysteriöse urbane Atmosphäre.”
Dynamik: Was sich bewegt und wie. Kräfte, Einschränkungen und Auslöser benennen.
Agent: Wer oder was handelt. Ego-Perspektive oder Seitenansicht? Mensch oder Objekt? Welche Fähigkeiten?
Ziele/Affordanzen: Was hier getan werden kann. Türen öffnen, Hebel ziehen, Leitern klettern.

Diese schreibe ich als ein bis drei Sätze, dann eine Zeile mit Einschränkungen. Das war’s. Wenn ich länger schreibe, entstehen meist Widersprüche (und das Modell wählt den falschen).

Eine Struktur, die ich oft wiederverwendet habe:

Satz 1: ein konkreter Ort + Tageszeit + Beleuchtung.
Satz 2: der steuerbare Agent + Kamera + Bewegungsverben.
Satz 3: die wichtigste Interaktion und das Ergebnis.
Einschränkungszeile: 1–3 kurze Einschränkungen (Physik, Kamera, Tempo).

Warum das wichtig ist: Weltmodelle zeichnen nicht nur – sie simulieren Muster. Wenn man „schnell” und „gleichmäßig” sagt, fordert man zwei verschiedene Rhythmen. Wenn man nicht angibt, wohin die Schwerkraft zeigt, wird sie geschätzt. Mehrdeutigkeit zu reduzieren hilft dem Modell, stabile Standardwerte zu wählen.

Für ein tieferes Verständnis, wie Google Genie 3 zur Simulation dieser Muster und mehr eingesetzt werden kann, lesen Sie unseren ausführlichen Artikel: What Is Google Genie 3?.

Signale, die mir zeigten, dass die Struktur funktionierte:

Weniger Kamerawackler über 3–5 Generationen desselben Seeds
Objekte, die von Frame zu Frame ihre Masse behalten (keine schwebenden Tassen)
Interaktionen, die in unter 6 Sekunden abgeschlossen werden, anstatt 15 Sekunden zu mäandern

Wenn eine Szene weiter wackelte, entfernte ich zuerst Adjektive, anstatt mehr hinzuzufügen. Einfacher gewann meistens.

Techniken zur Umgebungsbeschreibung

Umgebungen für ein Weltmodell zu beschreiben ist anders als ein einzelnes Bild zu gestalten. Ich hatte mehr Erfolg, wenn ich:

Den Raum mit zwei oder drei harten Oberflächen verankerte. „Nasses Kopfsteinpflaster, Backsteinmauern links/rechts, Metalltür am Ende.” Harte Oberflächen signalisieren Kontakt, Reflexionen und Reibung.
Affordanzen explizit benannte. Wenn ein Hebel gezogen werden soll, sage ich „ziehbarer Hebel auf Brusthöhe.” Wenn eine Tür nach innen öffnen soll, nenne ich die Scharnierseite.
Maßstäbe in menschlichen Begriffen setzte. „Bordstein kniehoch”, „Geländer hüfthoch”, „LKW-breite Gasse.” Das Modell rastet Bewegungen an diesen Ankerpunkten ein.
Eine Lichtquelle mit Richtung angab. „Leuchtreklame über der Tür, lila Streulicht von links nach rechts.” Das reduzierte Schattenflackern und verhinderte, dass die Kamera nach Interessenpunkten suchte.
Unordnung als Zonen definierte, nicht als Listen. „Gestapelte Kisten entlang der rechten Wand” funktionierte besser als alle Objekte einzeln zu benennen. Zu viele Substantive machten die Szene laut, ohne nützliches Verhalten hinzuzufügen.

Probleme, auf die ich stieß:

Vage Materialien führten zu rutschiger Physik. „Boden” ließ Figuren gleiten; „gummiertes Sportmatten” gab Traktion.
Überfüllte Layouts verwirren die Wegfindung. Wenn ich sechs Requisiten in einen kleinen Raum quetschte, zögerten Agenten an Ecken.
Tageszeit ohne Lichtrichtung brachte wenig. „Morgen” allein stabilisierte Schatten selten.

Wenn eine Szene noch wackelig wirkte, fügte ich einen weiteren physischen Hinweis hinzu (wie „Wind weht von links nach rechts” oder „leichter Regen mit sichtbaren Spritzern”). Kleine physische Hinweise verbesserten die Kohärenz mehr als zusätzliche Stilwörter.

Stil- und Ästhetikkontrolle

Stil ist verlockend, ihn zuerst zu verfolgen. Ich versuchte ihn zuletzt zu behandeln. Sobald sich die Welt richtig verhielt, justierte ich das Aussehen:

Einen Stilanker verwenden, nicht drei. „1990er DV-Kamera” oder „sanftes Filmkorn.” Das Stapeln von „cineastisch, vintage, gritty” trübte die Bewegung.
Stil an Physik knüpfen, nicht nur an Farbe. „Handkamera mit leichtem Schulterwackeln” ist ein Stil, der auch das Kameraverhalten festlegt.
Linsenäquivalente nur bei Bedarf erwähnen. „28mm Weitwinkel” half manchmal bei engen Räumen, aber Linsenangaben können Bewegungshinweise überwältigen.
Textur mit Verben, nicht mit Adjektiven. „Staubpartikel driften in einem Sonnenstrahl” schlägt „traumhaft, dunstig, ätherisch.” Verben geben dem Modell etwas zum Animieren.

Im Vergleich zu reinen Videomodellen wie Runway’s Gen-3 reagieren Weltmodell-Prompts stärker auf Aktion und Affordanzen als auf reines Aussehen. Wer von Gen-3 kommt, muss möglicherweise den Stil-Stack reduzieren und die Raum-und-Aktions-Zeilen verstärken.

Wenn Stil gegen Verhalten ankämpfte, entfernte ich zuerst den Stil. Eine schlichte, glaubwürdige Szene schlägt eine schöne, aber rutschige.

10 Beispiel-Prompts analysiert

Unten sind die genauen Genie 3-Prompts, die ich verwendet habe, oder nahe Varianten davon. Ich führte jeden 3–5 Mal Ende Januar 2026 aus und veränderte dabei jeweils eine Variable. Ich zeige den Prompt und was sich in der Praxis geändert hat.

Fotorealistische Szenen

„Enge Gasse in der Dämmerung mit nassem Kopfsteinpflaster und Backsteinmauern links und rechts. Ego-Perspektive in Gehgeschwindigkeit auf eine Metalltür unter einer flackernden Leuchtreklame zu. Den Griff greifen und die Tür nach innen aufdrücken.” Einschränkungen: stabiles Handheld, leichter Regen, Schwerkraft nach unten.

Ergebnis: Tür öffnete sich zuverlässig in ~4–6 Sekunden. Leichter Regen half, Reibung zu vermitteln: Schritte hörten auf zu gleiten. Ohne „nach innen drücken” schwang die Tür manchmal in die falsche Richtung.

„Kleine Küche bei Nacht, surrendes Deckenlicht. Dritte-Person, hüfthohe Kamera folgt einer Person, die eine dampfende Tasse zu einem Holztisch trägt. Tasse abstellen: kleiner Spritzer: Dampf kringelt sich.” Einschränkungen: kein Kamera-Dolly, leises Klappern, stabile Schatten.

Ergebnis: Dampf und kleiner Spritzer erschienen in 4/5 Durchläufen. Wenn ich „Holztisch” vergaß, glitt die Tasse leicht auf glänzenden Oberflächen. Das Benennen von Materialien war wichtig.

„U-Bahn-Bahnsteig, Nebenverkehrszeit, kühles weißes Licht. Seitenansicht, wie ein Pendler über eine gelbe Sicherheitslinie tritt, anhält und zurücktritt.” Einschränkungen: gleichmäßige Geschwindigkeit, keine Schnitte.

Ergebnis: Klare Tritt-und-Korrektur-Bewegung. Als ich „anhält und zurücktritt” entfernte, improvisierte das Modell mit einer Welle oder einem Blick aufs Handy – plausibel, aber nicht der Punkt.

„Büroflur mit Teppichboden, Glaswände rechts. Ego-Perspektive joggt zu einer Keypaddtür: Hand gibt PIN ein: Tür klickt auf.” Einschränkungen: leises Atemgeräusch, Keypad auf Handgelenkshöhe, Schwerkraft nach unten.

Ergebnis: Am besten mit „Keypad auf Handgelenkshöhe.” Ohne das schwebten Hände nach oben. Atemgeräusche (auch nur als Wort) beeinflussten das Tempo und halfen, roboterhafte Bewegungen zu vermeiden.

„Parkhaus, niedrige Decke, glänzender Beton. Dritte-Person, wie ein rollender Koffer über eine Bodenschwelle holpert, wackelt und sich dann stabilisiert.” Einschränkungen: feste Kamera, subtiles Echo, gleichmäßige Reflexionen.

Ergebnis: Das Wackeln erschien nur, wenn ich „holpert über eine Bodenschwelle” sagte. Wenn ich „überquert eine Schwelle” schrieb, verschwand das Radwackeln oft. Verben mit Kontakthinweisen halfen.

Stilisierte Umgebungen

„Side-Scrolling-Papier-Diorama-Stadt um die Mittagszeit. Pappgebäude, aufgemalte Wolken an Flaschenzügen. Eine Ausschnittsfigur rennt und zieht einen roten Hebel: eine Zugbrücke senkt sich.” Einschränkungen: Parallax-Ebenen, scharfe Kanten, Schwerkraft nach unten.

Ergebnis: Hebel-und-Brücke-Sequenz hielt sauber. Als ich „Vintage-Aquarell + Pappe + Tinte” anfragte, bluteten Kanten aus und die Brücke ruckelte. Ein Stilanker hielt die Mechanik intakt.

„Low-Poly-Wüstenschlucht in warmem Sonnenuntergangslicht. Dritte-Person, wie eine Kugelavatar einen Sandhang hinunterrollt und links auf eine Plankenbrücke abbiegt.” Einschränkungen: konstante Rollgeschwindigkeit, sanftes Rutschen auf Sand, kein Kamerarollen.

Ergebnis: Die Kurve funktionierte in 3/5 Durchläufen. „Kein Kamerarollen” stoppte ein lästiges Kippen, das den Hang steiler wirken ließ als er war.

„Isometrische gemütliche Taverne, Pixel-Art, 32-Farben-Palette. Ein Barkeeper-Sprite wischt die Bar; ein Gast-Sprite winkt; ein hängendes Schild schwingt, wenn die Tür aufgeht.” Einschränkungen: feste isometrische Kamera, 1 Schwingungsperiode.

Ergebnis: Das Schwingen synchronisierte sich am besten, wenn ich „1 Schwingungsperiode” angab. Ohne das schwang das Schild zu lang und lenkte von den Sprites ab.

„Tusche-und-Wash-Waldpfad in leichtem Nebel. Ego-Perspektive tritt über einen moosigen Baumstamm, Kamera taucht mit dem Schritt ab und erholt sich.” Einschränkungen: sanfter Aufprall, langsames Kopfnicken, Nebel bleibt dünn.

Ergebnis: Kamerataucher verkaufte den Schritt. „Nebel bleibt dünn” verhinderte, dass das Modell den Baumstamm mit dramatischem Nebel versteckte.

„Retro-DV-Kamera-Skatepark, später Nachmittag. Dritte-Person folgt einem Skateboarder, der einen kleinen Bordstein olliet, landet, leichtes Radrattern.” Einschränkungen: kleines Handheld-Wackeln, Bordstein knöchelhoch, lange Schatten.

Ergebnis: „Bordstein knöchelhoch” fixierte den Maßstab und verbesserte die Ollie-Höhe. Ohne das wurde der Trick manchmal zu einem Hüpfer ohne Bordsteinkontakt.

Anmerkungen zur Iteration:

Ich testete jeden Prompt mit und ohne eine Einschränkung. Das Entfernen von „Schwerkraft nach unten” ließ Szenen wieder schwebend wirken – in der Gasse und im Skatepark offensichtlich.
Kürzere Prompts übertrafen längere. Die meisten meiner Prompts hatten ~30–45 Wörter plus Einschränkungen.
Seeds (wenn verfügbar) halfen mir, Änderungen zu vergleichen. Ich verwendete ein kleines Raster: 3 Seeds × 2 Variationen, ~6 Durchläufe pro Idee. Das klingt kleinteilig, sparte aber Zeit.

Einige Grenzen, die ich nicht glätten konnte:

Präziser Text wie Keypad-Ziffern blieb unscharf – ich konzentrierte mich auf die Aktion, nicht auf Lesbarkeit.
Lange, mehrstufige Rätsel (drei oder mehr Interaktionen) neigten dazu, ab Schritt zwei abzudriften. Das Aufteilen in kleinere Einheiten funktionierte besser.
Stark reflektierende Böden schmolzen manchmal Schatten über Schnitte hinweg. „Gleichmäßige Reflexionen” anzugeben half, löste das Problem aber nicht jedes Mal.