Prompts do Genie 3: Escrevendo Descrições de Mundo Eficazes

Oi, aqui é a Dora. No final de janeiro de 2026, eu continuava obtendo mundos flutuantes e sem consequências de uma build do Genie 3 que eu estava testando — belíssimos no primeiro frame, mas com física que parecia um sonho. Meus prompts soavam certos na minha cabeça, mas os resultados derivavam. Portas não abriam direito. A gravidade se esquecia de si mesma.

Então desacelesei. Comecei a tratar prompts menos como poesia e mais como uma especificação curta e direta. Assim que fiz isso, os mundos começaram a se manter coesos. Não perfeitos, mas mais estáveis. É assim que eu abordо prompts para o Genie 3 agora, baseado no que realmente ajudou em tarefas reais.

Estrutura de prompt para modelos de mundo

Parei de escrever prompts floridos e comecei a escrever prompts pequenos e simples — do tipo que um colega de equipe poderia ler rapidamente e já sair trabalhando. Modelos de mundo respondem bem a isso. Minha base tem quatro partes:

Cenário: onde e quando. Seja concreto. “Beco estreito ao anoitecer”, não “atmosfera urbana misteriosa.”
Dinâmicas: o que se move e como. Nomeie forças, restrições e gatilhos.
Agente: quem ou o que está agindo. Câmera em primeira pessoa ou vista lateral? Humano ou objeto? Quais capacidades?
Objetivos/possibilidades de interação: o que pode ser feito aqui. Portas abrem, alavancas puxam, escadas sobem.

Escrevo isso em uma a três frases, seguidas de uma linha de restrições. É só isso. Quando vou além, geralmente aparecem contradições (e o modelo escolhe a errada).

Uma estrutura que reusei bastante:

Frase 1: um lugar concreto + hora do dia + iluminação.
Frase 2: o agente controlável + câmera + verbos de movimento.
Frase 3: a interação principal e o resultado.
Linha de restrições: 1–3 restrições curtas (física, câmera, ritmo).

Por que isso importa: modelos de mundo não apenas desenham — eles simulam padrões. Se você diz “rápido” e “estável”, está pedindo dois ritmos diferentes. Se não especificar para onde a gravidade aponta, o modelo vai adivinhar. Reduzir a ambiguidade ajuda o modelo a escolher padrões estáveis.

Para uma compreensão mais aprofundada de como o Google Genie 3 pode ser usado para simular esses padrões e muito mais, confira nosso artigo detalhado: O que é o Google Genie 3?.

Sinais que me disseram que a estrutura estava funcionando:

Menos tremores de câmera ao longo de 3–5 gerações com a mesma seed
Objetos mantendo massa de frame em frame (sem xícaras flutuantes)
Interações concluindo em menos de 6 segundos, em vez de se arrastando por 15

Se uma cena continuava oscilando, eu removia adjetivos primeiro, em vez de adicionar mais. O mais simples geralmente vencia.

Técnicas de descrição de ambiente

Descrever ambientes para um modelo de mundo é diferente de estilizar uma única imagem. Tive mais sorte quando:

Ancorei o espaço com duas ou três superfícies sólidas. “Chão de paralelepípedo molhado, paredes de tijolo à esquerda/direita, porta de metal ao fundo.” Superfícies sólidas indicam contato, reflexos e atrito.
Nomeei as possibilidades de interação explicitamente. Se uma alavanca deve ser puxada, diga “alavanca para puxar na altura do peito.” Se uma porta deve abrir para dentro, informe o lado da dobradiça.
Defini a escala em termos humanos. “Meio-fio na altura do joelho”, “corrimão na altura da cintura”, “beco com largura de caminhão.” O modelo encaixa o movimento nesses pontos de referência.
Usei uma fonte de luz com direção. “Letreiro de neon acima da porta, luz roxa espalhada da esquerda para a direita.” Isso reduziu o tremor de sombras e ajudou a câmera a manter o foco.
Defini a desordem como zonas, não como listas. “Caixas empilhadas ao longo da parede direita” funcionou melhor do que nomear cada objeto. Muitos substantivos tornavam a cena barulhenta sem acrescentar comportamento útil.

Dificuldades que encontrei:

Materiais vagos levaram a física escorregadia. “Chão” fez os personagens deslizarem; “tapete de ginástica emborrachado” deu tração.
Layouts superlotados confundiram a movimentação. Quando amontoei seis objetos em uma sala pequena, os agentes hesitavam perto dos cantos.
Hora do dia sem direção de luz não ajudou muito. “Manhã” sozinho raramente estabilizou as sombras.

Quando uma cena ainda parecia frágil, acrescentei mais uma pista física (como “vento soprando da esquerda para a direita” ou “chuva leve com respingos visíveis”). Pistas físicas pequenas melhoraram a coerência mais do que palavras extras de estilo.

Controle de estilo e estética

O estilo é tentador de perseguir primeiro. Eu tentava deixá-lo para o final. Assim que o mundo se comportava, eu ajustava a aparência:

Use uma âncora de estilo, não três. “Câmera DV dos anos 90” ou “granulado de filme suave.” Empilhar “cinematográfico, vintage, bruto” turvava o movimento.
Vincule o estilo à física, não apenas à cor. “Câmera na mão com leve balanço de ombro” é um estilo que também define o comportamento da câmera.
Mencione equivalentes de lente apenas se necessário. “Grande angular de 28mm” às vezes ajudou em espaços apertados, mas falar de lentes pode sobrecarregar as pistas de movimento.
Use verbos para transmitir textura, não adjetivos. “Partículas de poeira flutuam em um raio de sol” supera “sonhador, enevoado, etéreo.” Verbos dão ao modelo algo para animar.

Comparando com modelos exclusivamente de vídeo como o Gen-3 da Runway, percebi que prompts para modelos de mundo reagem com mais força a ações e possibilidades de interação do que à aparência pura. Se você vem do Gen-3, talvez precise reduzir sua pilha de estilo e aumentar as linhas de espaço e ação.

Quando o estilo entrou em conflito com o comportamento, removi o estilo primeiro. Uma cena simples e crível supera uma cena bonita, porém escorregadia.

10 prompts de exemplo analisados

Abaixo estão os prompts para o Genie 3 exatos que usei ou variantes próximas. Executei cada um 3–5 vezes no final de janeiro de 2026, ajustando uma variável de cada vez. Apresento o prompt e o que mudou na prática.

Cenas fotorrealistas

“Beco estreito ao anoitecer com chão de paralelepípedo molhado e paredes de tijolo à esquerda e à direita. Caminhada em primeira pessoa em direção a uma porta de metal sob um letreiro de neon piscando. Alcançar a maçaneta e empurrar a porta para dentro para abrir.” Restrições: câmera na mão estável, chuva leve, gravidade para baixo.

Resultado: A porta abriu de forma confiável em ~4–6s. A chuva leve ajudou a transmitir atrito: as passadas pararam de deslizar. Sem “empurrar para dentro”, a porta às vezes abria no sentido errado.

“Cozinha pequena à noite, zumbido de fluorescente no teto. Câmera em terceira pessoa na altura da cintura acompanhando uma pessoa carregando uma caneca fumegante até uma mesa de madeira. Pousar a caneca: pequeno respingo: vapor se enrola.” Restrições: sem dolly de câmera, leve barulho de impacto, sombras estáveis.

Resultado: Vapor e pequeno respingo apareceram em 4/5 execuções. Se eu esquecia “mesa de madeira”, a caneca deslizava levemente sobre superfícies brilhantes. Nomear o material importava.

“Plataforma de metrô, fora do horário de pico, iluminação branca fria. Vista lateral de um passageiro que passa por cima de uma linha de segurança amarela, para e recua.” Restrições: velocidade constante, sem cortes abruptos.

Resultado: Movimento claro de avançar e recuar. Quando removi “para e recua”, o modelo improvisou com um aceno ou verificação do celular — plausível, mas não era o objetivo.

“Corredor de escritório com piso de carpete, paredes de vidro à direita. Corrida em primeira pessoa até uma porta com teclado numérico: mão digita o PIN: porta clica e abre.” Restrições: leve som de respiração, teclado na altura do pulso, gravidade para baixo.

Resultado: Melhor com “teclado na altura do pulso.” Sem isso, as mãos flutuavam para cima. O som de respiração (mesmo como palavra) ajustou o ritmo e ajudou a evitar movimentos robóticos.

“Garagem de estacionamento, teto baixo, concreto brilhante. Terceira pessoa: uma mala de rodinhas bate em uma lombada, balança e se estabiliza.” Restrições: câmera fixa, eco sutil, reflexos consistentes.

Resultado: O balanço aparecia apenas quando eu dizia “bate em uma lombada.” Se eu escrevia “passa por uma lombada”, o balanço das rodas frequentemente desaparecia. Verbos com pistas de contato ajudaram.

Ambientes estilizados

“Cidade em diorama de papel com rolagem lateral ao meio-dia. Prédios de papelão, nuvens pintadas em polias. Um personagem recortado corre e puxa uma alavanca vermelha: uma ponte levadiça desce.” Restrições: camadas de paralaxe, bordas nítidas, gravidade para baixo.

Resultado: A sequência de alavanca-e-ponte se manteve limpa. Quando pedi “aquarela vintage + papelão + tinta”, as bordas sangraram e a ponte travejou. Uma âncora de estilo manteve a mecânica intacta.

“Canyon desértico em low-poly com luz quente de pôr do sol. Terceira pessoa: um avatar esférico desce rolando por uma encosta de areia e curva à esquerda sobre uma ponte de tábuas.” Restrições: velocidade de rolagem constante, leve derrapagem na areia, sem rotação de câmera.

Resultado: A curva funcionou em 3/5 execuções. Adicionar “sem rotação de câmera” eliminou uma inclinação irritante que fazia a encosta parecer mais íngreme do que era.

“Taverna aconchegante em isométrico, pixel art, paleta de 32 cores. Um sprite bartender limpa o balcão: um sprite cliente acena: uma placa pendurada balança quando a porta abre.” Restrições: câmera isométrica fixa, 1 período de balanço.

Resultado: O balanço sincronizou melhor quando especifiquei “1 período de balanço.” Sem isso, a placa balançava por muito tempo e desviava a atenção dos sprites.

“Trilha de floresta em tinta e aquarela com névoa leve. Passos em primeira pessoa sobre um tronco coberto de musgo, câmera mergulha com o passo e se recupera.” Restrições: som suave de passos, balanço lento de cabeça, névoa permanece fina.

Resultado: O mergulho da câmera transmitiu o passo. Adicionar “névoa permanece fina” impediu o modelo de esconder o tronco com névoa dramática.

“Skatepark em câmera DV retrô, fim de tarde. Terceira pessoa acompanhando um skatista que faz um ollie em um pequeno meio-fio, pousa, leve barulho de rodas.” Restrições: tremor de câmera na mão pequeno, meio-fio na altura do tornozelo, sombras longas.

Resultado: “Meio-fio na altura do tornozelo” corrigiu a escala e melhorou a altura do ollie. Sem isso, o truque às vezes se tornava um salto sem contato com o meio-fio.

Notas sobre iteração:

Testei cada prompt com e sem uma restrição. Remover “gravidade para baixo” deixava as cenas flutuantes novamente — óbvio no beco e no skatepark.
Prompts mais curtos superaram os mais longos. A maioria dos meus ficou em ~30–45 palavras mais as restrições.
Seeds (quando disponíveis) me ajudaram a comparar mudanças. Mantive uma pequena grade: 3 seeds × 2 variações, ~6 execuções por ideia. Parece excessivo, mas economizou tempo.

Alguns limites que não consegui contornar:

Textos precisos, como dígitos de teclado numérico, permaneceram borrados — foquei na ação, não na legibilidade.
Quebra-cabeças longos com múltiplas etapas (três ou mais interações) tendiam a derivar a partir da segunda etapa. Dividir em partes menores funcionou melhor.
Pisos altamente reflexivos às vezes dissolviam sombras entre cortes. Especificar “reflexos consistentes” ajudou, mas não corrigiu o problema todas as vezes.