← Blog

Prompt Genie 3: Menulis Deskripsi Dunia yang Efektif

Panduan menulis prompt yang efektif untuk Genie 3 berdasarkan analisis demo dan prinsip-prinsip model dunia.

9 min read
Prompt Genie 3: Menulis Deskripsi Dunia yang Efektif

Hai, ini Dora. Pada akhir Januari 2026, saya terus mendapatkan dunia yang melayang-layang tanpa konsekuensi dari build Genie 3 yang sedang saya uji—indah di frame pertama, lalu fisika yang terasa seperti mimpi. Prompt saya terdengar benar di kepala, tapi hasilnya menyimpang. Pintu tidak benar-benar terbuka. Gravitasi melupakan dirinya sendiri.

Jadi saya memperlambat diri. Saya memperlakukan prompt bukan seperti puisi, melainkan seperti spesifikasi singkat yang lugas. Setelah itu, dunia-dunia mulai terbentuk dengan stabil. Tidak sempurna, tapi lebih mantap. Inilah cara saya sekarang mendekati prompt Genie 3, dibingkai oleh apa yang benar-benar membantu dalam tugas nyata.

Struktur prompt untuk world model

Saya berhenti menulis prompt yang puitis dan mulai menulis yang pendek dan membosankan—jenis yang bisa dibaca sekilas oleh rekan kerja dan langsung dibangun darinya. World model merespons hal itu dengan baik. Kerangka dasar saya terdiri dari empat bagian:

  • Setting: di mana dan kapan. Buat konkret. “Gang sempit saat senja,” bukan “suasana urban yang misterius.”
  • Dinamika: apa yang bergerak dan bagaimana. Sebutkan gaya, batasan, dan pemicu.
  • Agen: siapa atau apa yang bertindak. Kamera orang pertama atau tampilan samping? Manusia atau objek? Kemampuan apa saja?
  • Tujuan/affordance: apa yang bisa dilakukan di sini. Pintu terbuka, tuas ditarik, tangga dipanjat.

Saya menulisnya dalam satu hingga tiga kalimat, lalu satu baris batasan. Hanya itu. Ketika saya menulis lebih panjang, biasanya saya mendapat kontradiksi (dan model memilih yang salah).

Struktur yang sering saya gunakan ulang:

  • Kalimat 1: tempat konkret + waktu hari + pencahayaan.
  • Kalimat 2: agen yang dapat dikontrol + kamera + kata kerja gerak.
  • Kalimat 3: interaksi utama dan hasilnya.
  • Baris batasan: 1–3 batasan singkat (fisika, kamera, tempo).

Mengapa ini penting: world model tidak hanya menggambar—mereka mensimulasikan pola. Jika Anda mengatakan “cepat” dan “stabil,” Anda meminta dua ritme yang berbeda. Jika Anda tidak menyebutkan ke mana gravitasi mengarah, model akan menebaknya. Mengurangi ambiguitas membantu model memilih default yang stabil.

Untuk pemahaman lebih mendalam tentang bagaimana Google Genie 3 dapat digunakan untuk mensimulasikan pola-pola ini dan lebih banyak lagi, lihat artikel lengkap kami: What Is Google Genie 3?.

Sinyal yang menunjukkan struktur berjalan dengan baik:

  • Lebih sedikit guncangan kamera di 3–5 generasi dengan seed yang sama
  • Objek mempertahankan massa dari frame ke frame (tidak ada cangkir yang melayang)
  • Interaksi selesai dalam kurang dari 6 detik alih-alih berlarut-larut selama 15 detik

Jika sebuah adegan terus bergoyang, saya menghapus kata sifat terlebih dahulu, bukan menambahkan lebih banyak. Yang lebih sederhana biasanya menang.

Teknik deskripsi lingkungan

Mendeskripsikan lingkungan untuk world model berbeda dari menata satu gambar. Saya mendapat hasil lebih baik ketika:

  • Menambatkan ruang dengan dua atau tiga permukaan keras. “Lantai batu bulat yang basah, dinding bata kiri/kanan, pintu logam di ujung.” Permukaan keras memberikan isyarat untuk kontak, pantulan, dan gesekan.
  • Menyebutkan affordance secara eksplisit. Jika tuas harus ditarik, katakan “tuas yang bisa ditarik setinggi dada.” Jika pintu harus terbuka ke dalam, sebutkan sisi engselnya.
  • Menetapkan skala dalam istilah manusia. “Trotoar setinggi lutut,” “pagar setinggi pinggang,” “gang selebar truk.” Model menyesuaikan gerakan dengan penanda ini.
  • Memberikan satu sumber cahaya dengan arah. “Papan neon di atas pintu, cahaya ungu menyebar dari kiri ke kanan.” Ini mengurangi kedipan bayangan dan membantu kamera tidak mencari-cari fokus.
  • Mendefinisikan kekacauan sebagai zona, bukan daftar. “Tumpukan peti di sepanjang dinding kanan” bekerja lebih baik daripada menyebutkan setiap objek. Terlalu banyak kata benda membuat adegan berisik tanpa menambahkan perilaku yang berguna.

Hambatan yang saya temui:

  • Material yang tidak jelas menghasilkan fisika yang licin. “Lantai” membuat karakter meluncur; “matras gym bersalut karet” memberikan traksi.
  • Tata letak yang terlalu padat mengacaukan jalur. Ketika saya memasukkan enam properti ke dalam ruangan kecil, agen ragu-ragu di dekat sudut.
  • Waktu hari tanpa arah cahaya tidak banyak membantu. “Pagi” saja jarang menstabilkan bayangan.

Ketika sebuah adegan masih terasa rapuh, saya menambahkan satu isyarat fisik lagi (seperti “angin berhembus dari kiri ke kanan” atau “hujan ringan dengan percikan yang terlihat”). Isyarat fisik kecil meningkatkan koherensi lebih dari kata-kata gaya tambahan.

Kontrol gaya dan estetika

Gaya menggoda untuk dikejar pertama kali. Saya mencoba menyimpannya untuk terakhir. Setelah dunia berperilaku dengan benar, saya baru menyesuaikan tampilannya:

  • Gunakan satu penanda gaya, bukan tiga. “Kamera DV tahun 1990-an” atau “butiran film yang lembut.” Menumpuk “sinematik, vintage, kasar” mengaburkan gerakan.
  • Hubungkan gaya dengan fisika, bukan hanya warna. “Kamera genggam dengan sedikit goyangan bahu” adalah gaya yang juga menetapkan perilaku kamera.
  • Sebutkan ekuivalen lensa hanya jika perlu. “Lebar 28mm” terkadang membantu di ruang sempit, tapi pembicaraan tentang lensa bisa mengalahkan isyarat gerak.
  • Berikan tekstur dengan kata kerja, bukan kata sifat. “Debu mengambang dalam berkas sinar matahari” lebih baik dari “bermimpi, berkabut, etherial.” Kata kerja memberi model sesuatu untuk dianimasikan.

Dibandingkan dengan model video saja seperti Runway’s Gen-3, saya memperhatikan prompt world model bereaksi lebih kuat terhadap aksi dan affordance daripada terhadap tampilan murni. Jika Anda berasal dari Gen-3, Anda mungkin perlu mengurangi tumpukan gaya dan menambah baris ruang-dan-aksi.

Ketika gaya bertentangan dengan perilaku, saya menghapus gaya terlebih dahulu. Adegan yang polos dan meyakinkan lebih baik daripada yang indah tapi licin.

10 contoh prompt yang dianalisis

Berikut adalah prompt Genie 3 yang saya gunakan atau variasinya yang dekat. Saya menjalankan masing-masing 3–5 kali pada akhir Januari 2026, mengubah satu variabel sekaligus. Saya menampilkan prompt dan apa yang berubah dalam praktiknya.

Adegan fotorealistis

  1. “Gang sempit saat senja dengan lantai batu bulat yang basah dan dinding bata di kiri dan kanan. Berjalan orang pertama menuju pintu logam di bawah papan neon yang berkedip. Raih pegangan dan dorong pintu ke dalam untuk membukanya.” Batasan: genggam stabil, hujan ringan, gravitasi ke bawah.

Hasil: Pintu terbuka dalam ~4–6 detik secara andal. Hujan ringan membantu menjual gesekan: langkah kaki berhenti meluncur. Tanpa “dorong ke dalam,” pintu terkadang berayun ke arah yang salah.

  1. “Dapur kecil di malam hari, dengungan lampu neon di atas. Orang ketiga, kamera setinggi pinggang mengikuti seseorang membawa cangkir beruap ke meja kayu. Letakkan cangkir: percikan kecil: uap menggulung.” Batasan: tanpa dolly kamera, gemerincing lembut, bayangan stabil.

Hasil: Uap dan percikan kecil muncul dalam 4/5 percobaan. Jika saya lupa “meja kayu,” cangkir sedikit meluncur di permukaan yang mengkilap. Menyebutkan material penting.

  1. “Peron kereta bawah tanah, sepi, pencahayaan putih dingin. Tampilan samping saat seorang penumpang melangkahi garis keselamatan kuning, berhenti, dan melangkah kembali.” Batasan: kecepatan konstan, tanpa potongan mendadak.

Hasil: Gerakan melangkah-dan-kembali yang jelas. Ketika saya menghapus “berhenti dan melangkah kembali,” model berimprovisasi dengan lambaian tangan atau mengecek ponsel—masuk akal, tapi bukan tujuannya.

  1. “Koridor kantor dengan lantai karpet, dinding kaca di sebelah kanan. Joging orang pertama ke pintu keypad: tangan memasukkan PIN: pintu berbunyi klik dan terbuka.” Batasan: suara napas samar, keypad setinggi pergelangan tangan, gravitasi ke bawah.

Hasil: Terbaik dengan “keypad setinggi pergelangan tangan.” Tanpa itu, tangan melayang ke atas. Suara napas (bahkan sebagai kata) mendorong tempo dan membantu menghindari gerakan yang robotik.

  1. “Garasi parkir, langit-langit rendah, beton mengkilap. Orang ketiga saat koper berjalan membentur polisi tidur, oleng, lalu stabil.” Batasan: kamera tetap, gema samar, pantulan konsisten.

Hasil: Goyangan muncul hanya ketika saya mengatakan “membentur polisi tidur.” Jika saya menulis “melintasi tonjolan,” goyangan roda sering menghilang. Kata kerja dengan isyarat kontak membantu.

Lingkungan bergaya

  1. “Kota diorama kertas bergulir samping saat siang. Gedung karton, awan yang dilukis di katrol. Karakter potongan berlari dan menarik tuas merah: jembatan angkat turun.” Batasan: lapisan paralaks, tepi tajam, gravitasi ke bawah.

Hasil: Urutan tuas-dan-jembatan bertahan dengan bersih. Ketika saya meminta “cat air vintage + karton + tinta,” tepi menjadi kabur dan jembatan tersendat. Satu penanda gaya menjaga mekanika tetap utuh.

  1. “Ngarai gurun low-poly dalam cahaya matahari terbenam yang hangat. Orang ketiga saat avatar bola menggelinding menuruni lereng pasir dan berbelok ke kiri ke jembatan papan.” Batasan: kecepatan gelinding konstan, selip lembut di pasir, tanpa gulungan kamera.

Hasil: Belokan berhasil dalam 3/5 percobaan. Menambahkan “tanpa gulungan kamera” menghentikan kemiringan yang mengganggu yang membuat lereng terasa lebih curam dari seharusnya.

  1. “Kedai minum isometrik yang nyaman, pixel art, palet 32 warna. Sprite bartender membersihkan bar: sprite pelanggan melambaikan tangan: papan gantung berayun saat pintu terbuka.” Batasan: kamera isometrik tetap, 1 periode ayunan.

Hasil: Ayunan tersinkron paling baik ketika saya menentukan “1 periode ayunan.” Tanpanya, papan berayun terlalu lama dan mengalihkan perhatian dari sprite.

  1. “Jalur hutan tinta-dan-cat air dalam kabut tipis. Langkah orang pertama di atas batang kayu berlumut, kamera turun mengikuti langkah, lalu pulih.” Batasan: langkah kaki lembut, kepala bergoyang pelan, kabut tetap tipis.

Hasil: Penurunan kamera menjual langkah dengan baik. Menambahkan “kabut tetap tipis” mencegah model menyembunyikan batang kayu dengan kabut dramatis.

  1. “Skatepark kamera DV retro, sore hari. Orang ketiga mengikuti seorang skateboarder melakukan ollie di trotoar kecil, mendarat, sedikit gemerincing roda.” Batasan: guncangan genggam kecil, trotoar setinggi pergelangan kaki, bayangan panjang.

Hasil: “Trotoar setinggi pergelangan kaki” memperbaiki skala dan meningkatkan tinggi ollie. Tanpa itu, trik terkadang menjadi lompatan kecil tanpa kontak trotoar.

Catatan tentang iterasi:

  • Saya mencoba setiap prompt dengan dan tanpa satu batasan. Menghapus “gravitasi ke bawah” membuat adegan terasa melayang lagi—jelas terlihat di gang dan skatepark.
  • Prompt yang lebih pendek mengungguli yang lebih panjang. Sebagian besar milik saya berada di sekitar ~30–45 kata ditambah batasan.
  • Seed (jika tersedia) membantu saya membandingkan perubahan. Saya menyimpan kisi kecil: 3 seed × 2 variasi, ~6 percobaan per ide. Ini terdengar cerewet, tapi menghemat waktu.

Beberapa keterbatasan yang tidak bisa saya atasi:

  • Teks yang presisi seperti digit keypad tetap buram—saya fokus pada aksinya, bukan keterbacaannya.
  • Teka-teki panjang dengan banyak langkah (tiga interaksi atau lebih) cenderung menyimpang di langkah kedua. Memecahnya menjadi beat yang lebih kecil bekerja lebih baik.
  • Lantai dengan pantulan tinggi terkadang membuat bayangan meleleh di antara potongan. Menyebutkan “pantulan konsisten” membantu, tapi tidak selalu berhasil.