← Blog

Prompts de Genie 3: Cómo escribir descripciones de mundos efectivas

Guía para escribir prompts efectivos para Genie 3 basada en el análisis de demostraciones y los principios de los modelos de mundo.

10 min read
Prompts de Genie 3: Cómo escribir descripciones de mundos efectivas

Hola, soy Dora. A finales de enero de 2026, seguía obteniendo mundos flotantes y sin consecuencias a partir de una versión de Genie 3 que estaba probando: hermosos en el primer fotograma, luego con una física que parecía un sueño. Mis prompts sonaban bien en mi cabeza, pero los resultados se desviaban. Las puertas no acababan de abrirse. La gravedad se olvidaba de sí misma.

Así que frené. Traté los prompts menos como poesía y más como una especificación breve y clara. Una vez que lo hice, los mundos empezaron a mantenerse cohesionados. No perfectos, pero más estables. Así es como abordo ahora los prompts de Genie 3, enmarcados por lo que realmente me ayudó en tareas reales.

Estructura de prompts para modelos de mundo

Dejé de escribir prompts floridos y empecé a escribir unos pequeños y aburridos, del tipo que un compañero de equipo podría ojear y usar como base. Los modelos de mundo responden bien a eso. Mi estructura base tiene cuatro partes:

  • Escenario: dónde y cuándo. Mantenlo concreto. “Callejón estrecho al anochecer,” no “ambiente urbano misterioso.”
  • Dinámicas: qué se mueve y cómo. Nombra fuerzas, restricciones y disparadores.
  • Agente: quién o qué actúa. ¿Cámara en primera persona o vista lateral? ¿Humano u objeto? ¿Qué capacidades tiene?
  • Objetivos/affordances: qué se puede hacer aquí. Las puertas se abren, las palancas se jalan, las escaleras se suben.

Escribo esto en una a tres oraciones, seguidas de una línea de restricciones. Eso es todo. Cuando me extiendo más, suelo obtener contradicciones (y el modelo elige la incorrecta).

Una estructura que reutilicé mucho:

  • Oración 1: un lugar concreto + hora del día + iluminación.
  • Oración 2: el agente controlable + cámara + verbos de movimiento.
  • Oración 3: la interacción clave y su resultado.
  • Línea de restricciones: 1–3 restricciones breves (física, cámara, ritmo).

Por qué importa esto: los modelos de mundo no solo dibujan: simulan patrones. Si dices “rápido” y “estable,” estás pidiendo dos ritmos distintos. Si no indicas hacia dónde apunta la gravedad, el modelo adivina. Reducir la ambigüedad ayuda al modelo a elegir valores predeterminados estables.

Para una comprensión más profunda de cómo Google Genie 3 puede usarse para simular estos patrones y más, consulta nuestro artículo detallado: ¿Qué es Google Genie 3?.

Señales que me indicaron que la estructura estaba funcionando:

  • Menos temblores de cámara en 3–5 generaciones del mismo seed
  • Objetos que conservaban masa de fotograma en fotograma (sin tazas flotantes)
  • Interacciones que se completaban en menos de 6 segundos en lugar de divagar durante 15

Si una escena seguía tambaleándose, primero eliminaba adjetivos, no añadía más. Lo más simple solía ganar.

Técnicas para describir entornos

Describir entornos para un modelo de mundo es diferente a estilizar una sola imagen. Tuve mejor suerte cuando:

  • Anclé el espacio con dos o tres superficies sólidas. “Suelo de adoquín mojado, paredes de ladrillo izquierda/derecha, puerta metálica al fondo.” Las superficies sólidas indican contacto, reflejos y fricción.
  • Nombré las affordances explícitamente. Si una palanca debe jalarse, di “palanca jalable a la altura del pecho.” Si una puerta debe abrirse hacia adentro, indica el lado de la bisagra.
  • Establecí la escala en términos humanos. “Bordillo a la altura de la rodilla,” “barandilla a la altura de la cintura,” “callejón del ancho de un camión.” El modelo ajusta el movimiento a estos anclajes.
  • Di una fuente de luz con dirección. “Letrero de neón sobre la puerta, luz morada derramándose de izquierda a derecha.” Esto redujo el parpadeo de sombras y ayudó a que la cámara no buscara puntos de interés.
  • Definí el desorden como zonas, no como listas. “Cajas apiladas a lo largo de la pared derecha” funcionó mejor que nombrar cada objeto. Demasiados sustantivos hacían la escena ruidosa sin añadir comportamiento útil.

Fricciones que encontré:

  • Los materiales vagos llevaban a una física resbaladiza. “Suelo” hacía que los personajes se deslizaran; “colchoneta de gimnasio cauterizada” daba tracción.
  • Los diseños sobrecargados confundían los trayectos. Cuando metía seis accesorios en una habitación pequeña, los agentes dudaban cerca de las esquinas.
  • La hora del día sin dirección de luz no servía de mucho. “Mañana” por sí solo rara vez estabilizaba las sombras.

Cuando una escena seguía sintiéndose endeble, añadía una señal física más (como “viento empujando de izquierda a derecha” o “lluvia ligera con salpicaduras visibles”). Las pequeñas señales físicas mejoraban la coherencia más que las palabras de estilo adicionales.

Control de estilo y estética

El estilo es tentador de perseguir primero. Intenté dejarlo para el final. Una vez que el mundo se comportaba, ajustaba el aspecto:

  • Usa un único ancla de estilo, no tres. “Cámara DV de los 90” o “grano de película suave.” Apilar “cinematográfico, vintage, crudo” enturbiaba el movimiento.
  • Vincula el estilo a la física, no solo al color. “Cámara en mano con leve bamboleo de hombros” es un estilo que también define el comportamiento de la cámara.
  • Menciona equivalentes de lente solo si es necesario. “28mm gran angular” a veces ayudaba en espacios reducidos, pero hablar de lentes puede eclipsar las indicaciones de movimiento.
  • Texturiza con verbos, no con adjetivos. “Motas de polvo flotando en un rayo de sol” supera a “onírico, nebuloso, etéreo.” Los verbos le dan al modelo algo que animar.

Comparado con modelos exclusivamente de video como Gen-3 de Runway, noté que los prompts de modelos de mundo reaccionan con más fuerza a las acciones y affordances que al aspecto visual puro. Si vienes de Gen-3, puede que necesites reducir tu pila de estilo y aumentar las líneas de espacio y acción.

Cuando el estilo luchaba contra el comportamiento, eliminaba el estilo primero. Una escena sencilla y creíble supera a una hermosa pero resbaladiza.

10 prompts de ejemplo analizados

A continuación están los prompts de Genie 3 exactos que usé o variantes cercanas. Ejecuté cada uno 3–5 veces a finales de enero de 2026, ajustando una variable a la vez. Muestro el prompt y lo que cambió en la práctica.

Escenas fotorrealistas

  1. “Callejón estrecho al anochecer con suelo de adoquín mojado y paredes de ladrillo a izquierda y derecha. Primera persona a paso de caminata hacia una puerta metálica bajo un letrero de neón parpadeante. Extender la mano hacia el pomo y empujar la puerta hacia adentro para abrirla.” Restricciones: mano en mano estable, lluvia ligera, gravedad hacia abajo.

Resultado: La puerta se abrió de manera confiable en ~4–6 segundos. La lluvia ligera ayudó a dar sensación de fricción: los pasos dejaron de deslizarse. Sin “empujar hacia adentro,” la puerta a veces giraba en dirección incorrecta.

  1. “Cocina pequeña de noche, zumbido de fluorescente cenital. Tercera persona, cámara a la altura de la cintura siguiendo a una persona que lleva una taza humeante a una mesa de madera. Depositar la taza: pequeño salpicón: el vapor se riza.” Restricciones: sin dolly de cámara, golpe suave, sombras estables.

Resultado: El vapor y el pequeño salpicón aparecieron en 4/5 ejecuciones. Si olvidaba “mesa de madera,” la taza se deslizaba ligeramente sobre superficies brillantes. Nombrar el material importaba.

  1. “Andén de metro, fuera de hora pico, luz blanca fría. Vista lateral mientras un pasajero cruza una línea de seguridad amarilla, se detiene y retrocede.” Restricciones: velocidad constante, sin cortes bruscos.

Resultado: Movimiento de paso y corrección claro. Cuando eliminé “se detiene y retrocede,” el modelo improvisó con un saludo o una revisión del teléfono, plausible, pero no era el objetivo.

  1. “Pasillo de oficina con suelo de moqueta, paredes de cristal a la derecha. Primera persona trotando hacia una puerta con teclado numérico: la mano introduce el PIN: la puerta hace clic al abrirse.” Restricciones: leve ruido de respiración, teclado a la altura de la muñeca, gravedad hacia abajo.

Resultado: Mejor con “teclado a la altura de la muñeca.” Sin eso, las manos flotaban hacia arriba. El ruido de respiración (incluso como palabra) marcaba el ritmo y ayudaba a evitar el movimiento robótico.

  1. “Garaje de estacionamiento, techo bajo, hormigón brillante. Tercera persona mientras una maleta con ruedas choca contra un tope, se tambalea y luego se estabiliza.” Restricciones: cámara fija, eco sutil, reflejos consistentes.

Resultado: El tambaleo apareció solo cuando dije “choca contra un tope.” Si escribí “cruza un tope,” el tambaleo de las ruedas a menudo desaparecía. Los verbos con indicaciones de contacto ayudaban.

Entornos estilizados

  1. “Ciudad de diorama de papel de desplazamiento lateral al mediodía. Edificios de cartón, nubes pintadas sobre poleas. Un personaje recortado corre y jala una palanca roja: un puente levadizo baja.” Restricciones: capas de paralaje, bordes nítidos, gravedad hacia abajo.

Resultado: La secuencia de palanca y puente se mantuvo limpia. Cuando pedí “acuarela vintage + cartón + tinta,” los bordes se difuminaron y el puente tartamudeó. Un solo ancla de estilo mantuvo intacta la mecánica.

  1. “Cañón desértico de bajo poligonaje bajo cálida luz de atardecer. Tercera persona mientras un avatar esférico rueda por una pendiente de arena y gira a la izquierda sobre un puente de tablones.” Restricciones: velocidad de rodadura constante, derrape suave sobre la arena, sin rotación de cámara.

Resultado: El giro en curva funcionó 3/5 ejecuciones. Añadir “sin rotación de cámara” detuvo una inclinación molesta que hacía que la pendiente pareciera más pronunciada de lo que era.

  1. “Taberna acogedora isométrica, pixel art, paleta de 32 colores. Un sprite de barman limpia la barra: un sprite de cliente hace señas: un letrero colgante se balancea cuando se abre la puerta.” Restricciones: cámara isométrica fija, 1 período de balanceo.

Resultado: El balanceo se sincronizó mejor cuando especifiqué “1 período de balanceo.” Sin eso, el letrero se balanceaba demasiado tiempo y desviaba la atención de los sprites.

  1. “Senda forestal de tinta y aguada con niebla ligera. Primera persona cruza un tronco cubierto de musgo, la cámara se hunde con el paso y luego se recupera.” Restricciones: pisada suave, balanceo de cabeza lento, la niebla se mantiene tenue.

Resultado: El hundimiento de la cámara vendía el paso. Añadir “la niebla se mantiene tenue” evitó que el modelo ocultara el tronco con una niebla dramática.

  1. “Skatepark con cámara DV retro, última hora de la tarde. Tercera persona siguiendo a un skater que hace un ollie sobre un pequeño bordillo, aterriza, con leve vibración de ruedas.” Restricciones: temblor de mano pequeño, bordillo a la altura del tobillo, sombras largas.

Resultado: “Bordillo a la altura del tobillo” fijó la escala y mejoró la altura del ollie. Sin eso, el truco a veces se convertía en un salto sin contacto con el bordillo.

Notas sobre la iteración:

  • Probé cada prompt con y sin una restricción. Eliminar “gravedad hacia abajo” hizo que las escenas volvieran a sentirse flotantes, evidente en el callejón y el skatepark.
  • Los prompts más cortos superaron a los más largos. La mayoría de los míos tenían ~30–45 palabras más restricciones.
  • Los seeds (cuando estaban disponibles) me ayudaron a comparar cambios. Mantuve una pequeña cuadrícula: 3 seeds × 2 variaciones, ~6 ejecuciones por idea. Suena meticuloso, pero ahorró tiempo.

Algunos límites que no pude suavizar:

  • El texto preciso como los dígitos del teclado numérico seguía siendo borroso; me centré en la acción, no en la legibilidad.
  • Los puzles largos con múltiples pasos (tres o más interacciones) tendían a desviarse en el segundo paso. Dividirlos en beats más pequeños funcionó mejor.
  • Los suelos muy reflectantes a veces fundían las sombras entre cortes. Especificar “reflejos consistentes” ayudaba, pero no lo solucionaba siempre.