Промпты Genie 3: Написание эффективных описаний миров
Руководство по написанию эффективных промптов для Genie 3 на основе анализа демо и принципов мировых моделей.
Привет, это Дора. В конце января 2026 года я раз за разом получала из билда Genie 3, который тестировала, воздушные, лишённые последствий миры — красивые на первом кадре, а потом физика, похожая на сон. Мои промпты звучали правильно в голове, но результаты плыли. Двери не совсем открывались. Гравитация о себе забывала.
Тогда я сбавила темп. Я стала относиться к промптам не как к поэзии, а как к короткой, простой спецификации. Как только я это сделала, миры начали держаться вместе. Не идеально, но устойчивее. Вот как я теперь подхожу к промптам для Genie 3, основываясь на том, что реально помогало в реальных задачах.
Структура промпта для мировых моделей
Я перестала писать цветистые промпты и начала писать маленькие, скучные — такие, которые коллега мог бы быстро просмотреть и взять за основу. Мировые модели хорошо на это реагируют. Мой базовый шаблон состоит из четырёх частей:
- Обстановка: где и когда. Конкретно. «Узкий переулок в сумерках», а не «таинственная городская атмосфера».
- Динамика: что движется и как. Назовите силы, ограничения и триггеры.
- Агент: кто или что действует. Камера от первого лица или боковой вид? Человек или объект? Какие возможности?
- Цели/доступные действия: что здесь можно сделать. Двери открываются, рычаги тянутся, лестницы позволяют подняться.
Я пишу это в виде одного-трёх предложений, затем одна строка ограничений. Всё. Когда я пишу длиннее, обычно возникают противоречия (и модель выбирает неверное).
Структура, которую я часто использовала:
- Предложение 1: конкретное место + время суток + освещение.
- Предложение 2: управляемый агент + камера + глаголы движения.
- Предложение 3: ключевое взаимодействие и результат.
- Строка ограничений: 1–3 коротких ограничения (физика, камера, темп).
Почему это важно: мировые модели не просто рисуют — они симулируют паттерны. Если вы говорите «быстро» и «плавно», вы задаёте два разных ритма. Если вы не указываете, куда направлена гравитация, модель догадывается сама. Снижение неоднозначности помогает модели выбирать устойчивые настройки по умолчанию.
Для более глубокого понимания того, как Google Genie 3 можно использовать для симуляции этих паттернов и не только, читайте нашу подробную статью: What Is Google Genie 3?.
Сигналы того, что структура работает:
- Меньше дрожания камеры при 3–5 генерациях одного и того же сида
- Объекты сохраняют массу от кадра к кадру (никаких парящих чашек)
- Взаимодействия завершаются менее чем за 6 секунд, вместо того чтобы тянуться 15
Если сцена продолжала шататься, я сначала убирала прилагательные, а не добавляла новые. Проще — как правило, лучше.
Техники описания окружения
Описывать окружение для мировой модели — это не то же самое, что стилизовать отдельное изображение. Мне везло больше, когда я:
- Фиксировала пространство двумя-тремя твёрдыми поверхностями. «Мокрая брусчатка, кирпичные стены слева и справа, металлическая дверь в конце.» Твёрдые поверхности задают контакт, отражения и трение.
- Явно называла доступные действия. Если рычаг должен тянуться — говорите «рычаг, который можно потянуть, на уровне груди». Если дверь должна открываться внутрь — укажите, с какой стороны петли.
- Задавала масштаб в человеческих единицах. «Бордюр высотой до колена», «перила на уровне пояса», «переулок шириной с грузовик». Модель привязывает движение к этим ориентирам.
- Давала один источник света с направлением. «Неоновая вывеска над дверью, фиолетовый рассеянный свет слева направо.» Это снизило мерцание теней и помогло камере не «охотиться» за интересным.
- Определяла беспорядок зонами, а не списками. «Сложенные ящики вдоль правой стены» работало лучше, чем перечисление каждого объекта. Слишком много существительных делало сцену шумной, не добавляя полезного поведения.
Трудности, с которыми я столкнулась:
- Расплывчатые материалы приводили к скользкой физике. «Пол» заставлял персонажей скользить: «прорезиненный гимнастический мат» давал сцепление.
- Перегруженные планировки путали траектории. Когда я запихивала шесть объектов в маленькую комнату, агенты нерешительно останавливались у углов.
- Время суток без указания направления света почти не помогало. «Утро» само по себе редко стабилизировало тени.
Когда сцена всё равно казалась хрупкой, я добавляла ещё одну физическую подсказку (например, «ветер дует слева направо» или «лёгкий дождь с видимыми брызгами»). Небольшие физические подсказки улучшали связность больше, чем дополнительные стилевые слова.
Управление стилем и эстетикой
Стиль заманчиво преследовать в первую очередь. Я старалась оставлять его на последнее. Как только мир начинал вести себя правильно, я корректировала внешний вид:
- Используйте один стилевой якорь, а не три. «Любительская камера 1990-х» или «мягкое зерно плёнки». Нагромождение «кинематографичный, винтажный, жёсткий» замутняло движение.
- Привязывайте стиль к физике, а не только к цвету. «Камера с рук с лёгким покачиванием плеча» — это стиль, который также задаёт поведение камеры.
- Указывайте эквиваленты объектива только при необходимости. «Широкий угол 28 мм» иногда помогал в тесных помещениях, но разговор об объективах может перебить подсказки о движении.
- Используйте глаголы для текстуры, а не прилагательные. «Пылинки плывут в солнечном луче» лучше, чем «мечтательный, туманный, эфирный». Глаголы дают модели что-то для анимации.
По сравнению с видеомоделями вроде Runway’s Gen-3, я заметила, что промпты для мировых моделей сильнее реагируют на действия и доступные взаимодействия, чем на чистую эстетику. Если вы пришли из Gen-3, вам, возможно, нужно уменьшить стилевой стек и усилить строки, описывающие пространство и действие.
Когда стиль вступал в конфликт с поведением, я первым делом убирала стиль. Простая, правдоподобная сцена лучше красивой, но скользкой.
Анализ 10 примеров промптов
Ниже приведены точные промпты для Genie 3, которые я использовала, или их близкие варианты. Я запускала каждый 3–5 раз в конце января 2026 года, меняя по одной переменной за раз. Привожу промпт и то, что изменилось на практике.
Фотореалистичные сцены
- «Узкий переулок в сумерках с мокрой брусчаткой и кирпичными стенами слева и справа. Вид от первого лица, пешеходный темп к металлической двери под мигающей неоновой вывеской. Потянуться к ручке и толкнуть дверь внутрь.» Ограничения: плавная камера с рук, лёгкий дождь, гравитация вниз.
Результат: Дверь надёжно открывалась за ~4–6 секунд. Лёгкий дождь помогал передать трение: шаги перестали скользить. Без «толкнуть внутрь» дверь иногда открывалась в неправильную сторону.
- «Маленькая кухня ночью, гул люминесцентной лампы сверху. Вид от третьего лица, камера на уровне пояса следует за человеком, несущим дымящуюся кружку к деревянному столу. Поставить кружку: небольшой всплеск: завиток пара.» Ограничения: без движения камеры на тележке, тихий стук, стабильные тени.
Результат: Пар и небольшой всплеск появлялись в 4 из 5 запусков. Если я забывала «деревянный стол», кружка чуть скользила по глянцевым поверхностям. Называть материал было важно.
- «Платформа метро, непиковое время, холодное белое освещение. Боковой вид: пассажир переступает через жёлтую линию безопасности, останавливается и отступает назад.» Ограничения: постоянная скорость, без монтажных склеек.
Результат: Чёткое движение «шаг и возврат». Когда я убирала «останавливается и отступает назад», модель импровизировала с взмахом руки или взглядом в телефон — правдоподобно, но не то, что нужно.
- «Офисный коридор с ковровым покрытием, стеклянные стены справа. Вид от первого лица: бег к двери с кодовым замком, рука вводит PIN, дверь щёлкает и открывается.» Ограничения: лёгкий звук дыхания, кодовый замок на уровне запястья, гравитация вниз.
Результат: Лучше всего работало с «кодовый замок на уровне запястья». Без этого руки парили вверх. Звук дыхания (даже просто как слово) задавал темп и помогал избежать роботоподобного движения.
- «Парковка, низкий потолок, глянцевый бетон. Вид от третьего лица: чемодан на колёсиках наезжает на лежачий полицейский, покачивается и выравнивается.» Ограничения: фиксированная камера, лёгкое эхо, постоянные отражения.
Результат: Покачивание появлялось только тогда, когда я писала «наезжает на лежачий полицейский». Если я писала «пересекает бугор», покачивание колёс часто исчезало. Глаголы с подсказками о контакте помогали.
Стилизованные окружения
- «Боковой скроллинг: бумажная диорама города в полдень. Картонные здания, нарисованные облака на шкивах. Картонный персонаж бежит и тянет красный рычаг: разводной мост опускается.» Ограничения: параллакс слоёв, чёткие края, гравитация вниз.
Результат: Последовательность «рычаг–мост» сохранялась чисто. Когда я просила «винтажная акварель + картон + тушь», края расплывались и мост заикался. Один стилевой якорь сохранял механику целой.
- «Низкополигональный пустынный каньон в тёплом закатном свете. Вид от третьего лица: аватар-сфера катится вниз по песчаному склону и поворачивает налево на дощатый мост.» Ограничения: постоянная скорость качения, мягкий занос на песке, без наклона камеры.
Результат: Повёрнутый разворот работал в 3 из 5 запусков. Добавление «без наклона камеры» устранило раздражающий крен, из-за которого склон казался круче, чем был.
- «Изометрическая уютная таверна, пиксель-арт, палитра 32 цвета. Спрайт бармена протирает стойку, спрайт посетителя машет рукой, висящая вывеска раскачивается, когда дверь открывается.» Ограничения: фиксированная изометрическая камера, 1 период качания.
Результат: Качание лучше всего синхронизировалось, когда я указывала «1 период качания». Без этого вывеска качалась слишком долго и перетягивала внимание от спрайтов.
- «Лесная тропа в технике тушь и акварель, лёгкий туман. Вид от первого лица: шаг через покрытое мхом бревно, камера опускается со шагом, затем восстанавливается.» Ограничения: тихий звук шагов, медленное покачивание головы, туман остаётся лёгким.
Результат: Опускание камеры передавало шаг. Добавление «туман остаётся лёгким» не давало модели спрятать бревно за драматической дымкой.
- «Скейт-парк на ретро-видеокамеру, поздний полдень. Вид от третьего лица: скейтбордист делает олли через небольшой бордюр, приземляется, лёгкий стук колёс.» Ограничения: небольшое дрожание камеры с рук, бордюр высотой до щиколотки, длинные тени.
Результат: «Бордюр высотой до щиколотки» зафиксировал масштаб и улучшил высоту олли. Без этого трюк иногда превращался в прыжок без контакта с бордюром.
Заметки об итерации:
- Я пробовала каждый промпт с одним ограничением и без него. Убирание «гравитация вниз» снова делало сцены воздушными — это было очевидно в переулке и на скейт-парке.
- Короткие промпты превосходили длинные. Большинство моих умещались в ~30–45 слов плюс ограничения.
- Сиды (там, где они были доступны) помогали сравнивать изменения. Я вела небольшую сетку: 3 сида × 2 варианта, ~6 запусков на идею. Это кажется педантичным, но экономило время.
Несколько ограничений, которые мне не удалось сгладить:
- Точный текст, например цифры кодового замка, оставался размытым — я фокусировалась на действии, а не на разборчивости.
- Длинные многоступенчатые головоломки (три и более взаимодействия) как правило начинали плыть на втором шаге. Разбивка на более мелкие фрагменты работала лучше.
- Сильно отражающие полы иногда размазывали тени при склейках. Указание «постоянные отражения» помогало, но не решало проблему каждый раз.
