Genie 3 프롬프트: 효과적인 세계 묘사 작성법
데모 분석 및 월드 모델 원리를 기반으로 Genie 3에 효과적인 프롬프트를 작성하는 가이드입니다.
안녕하세요, Dora입니다. 2026년 1월 말, 제가 테스트 중이던 Genie 3 빌드에서 계속해서 둥둥 떠다니는, 결과가 없는 세계들이 나왔습니다. 첫 프레임은 아름다웠지만 물리 법칙은 꿈속처럼 느껴졌습니다. 제 프롬프트는 머릿속에서는 그럴듯하게 들렸지만 결과물은 엉뚱한 방향으로 흘러갔습니다. 문이 제대로 열리지 않았고, 중력은 자기 역할을 잊어버렸습니다.
그래서 저는 속도를 늦췄습니다. 프롬프트를 시처럼 쓰지 않고 짧고 명확한 사양서처럼 다루기 시작했습니다. 그러자 세계들이 유지되기 시작했습니다. 완벽하지는 않았지만 훨씬 안정적이었습니다. 이것이 제가 지금 Genie 3 프롬프트를 다루는 방식이며, 실제 작업에서 효과가 있었던 내용을 바탕으로 정리했습니다.
월드 모델을 위한 프롬프트 구조
저는 화려한 프롬프트 쓰기를 멈추고, 팀원이 훑어보고 바로 작업에 활용할 수 있는 단순하고 평범한 것들을 쓰기 시작했습니다. 월드 모델은 그런 방식에 잘 반응합니다. 제 기본 구조는 네 가지 요소로 구성됩니다:
- 배경: 장소와 시간. 구체적으로 유지합니다. “신비로운 도시 분위기”가 아니라 “황혼 무렵의 좁은 골목”처럼.
- 역학: 무엇이 어떻게 움직이는지. 힘, 제약, 트리거를 명시합니다.
- 에이전트: 누가 또는 무엇이 행동하는지. 1인칭 카메라인가, 측면 뷰인가? 사람인가, 사물인가? 어떤 능력이 있는가?
- 목표/어포던스: 여기서 무엇을 할 수 있는지. 문이 열리고, 레버를 당기고, 사다리를 오르는 것 등.
이것들을 한 문장에서 세 문장으로 쓰고, 제약 조건을 한 줄 추가합니다. 그게 전부입니다. 더 길게 쓸수록 보통 모순이 생기고 (모델은 잘못된 것을 선택합니다).
제가 자주 재사용한 구조:
- 1문장: 구체적인 장소 + 시간대 + 조명.
- 2문장: 조작 가능한 에이전트 + 카메라 + 동작 동사.
- 3문장: 핵심 상호작용과 결과.
- 제약 줄: 1–3개의 짧은 제약 사항 (물리, 카메라, 페이싱).
이것이 중요한 이유: 월드 모델은 단순히 그리는 게 아니라 패턴을 시뮬레이션합니다. “빠른”과 “안정적인”을 동시에 말하면 서로 다른 두 가지 리듬을 요청하는 것입니다. 중력의 방향을 말하지 않으면 모델이 추측합니다. 모호함을 줄이면 모델이 안정적인 기본값을 선택하는 데 도움이 됩니다.
Google Genie 3가 이러한 패턴과 그 이상을 어떻게 시뮬레이션할 수 있는지 더 깊이 이해하려면 상세 아티클을 확인하세요: What Is Google Genie 3?
구조가 작동하고 있다는 신호들:
- 같은 시드의 3–5회 생성에서 카메라 흔들림 감소
- 프레임에서 프레임으로 물체가 질량을 유지함 (둥둥 뜨는 컵 없음)
- 상호작용이 15초 동안 방황하지 않고 6초 이내에 완료됨
장면이 계속 흔들리면, 형용사를 더 추가하지 말고 먼저 제거했습니다. 단순한 것이 보통 이겼습니다.
환경 묘사 기법
월드 모델을 위한 환경 묘사는 단일 이미지를 스타일링하는 것과 다릅니다. 다음과 같이 했을 때 더 나은 결과를 얻었습니다:
- 두세 개의 단단한 표면으로 공간을 고정합니다. “젖은 조약돌 바닥, 좌우 벽돌 벽, 끝의 금속 문.” 단단한 표면은 접촉, 반사, 마찰을 암시합니다.
- 어포던스를 명시적으로 명명합니다. 레버를 당겨야 한다면 “가슴 높이의 당길 수 있는 레버”라고 말합니다. 문이 안쪽으로 열려야 한다면 경첩 방향을 명시합니다.
- 척도를 인간적인 용어로 설정합니다. “무릎 높이의 연석”, “허리 높이의 난간”, “트럭 너비의 골목”. 모델이 이 기준점에 맞춰 동작을 맞춥니다.
- 방향이 있는 하나의 광원을 제공합니다. “문 위의 네온 사인, 왼쪽에서 오른쪽으로 보라색 빛.” 이것은 그림자 깜빡임을 줄이고 카메라가 관심 지점을 찾아 헤매는 것을 방지했습니다.
- 어수선함을 목록이 아닌 구역으로 정의합니다. “오른쪽 벽을 따라 쌓인 상자들”이 모든 물체의 이름을 나열하는 것보다 잘 작동했습니다. 명사가 너무 많으면 장면이 지저분해지면서 유용한 행동을 추가하지 못했습니다.
마주친 문제들:
- 모호한 재질은 미끄러운 물리로 이어졌습니다. “바닥”이라고 하면 캐릭터가 미끄러졌고, “고무 처리된 체육관 매트”는 마찰력을 주었습니다.
- 복잡한 레이아웃은 경로 탐색을 혼란스럽게 했습니다. 작은 방에 여섯 개의 소품을 욱여넣으면 에이전트가 모퉁이 근처에서 망설였습니다.
- 빛의 방향 없이 시간대만 지정하는 것은 별 효과가 없었습니다. “아침”만으로는 그림자가 거의 안정되지 않았습니다.
장면이 여전히 허술하게 느껴지면 물리적 신호를 하나 더 추가했습니다 (“왼쪽에서 오른쪽으로 바람이 붐” 또는 “눈에 보이는 물방울이 튀는 가벼운 비”). 작은 물리적 신호들이 추가적인 스타일 단어보다 일관성을 더 잘 향상시켰습니다.
스타일과 미적 제어
스타일은 먼저 추구하고 싶은 유혹이 있습니다. 저는 마지막에 두려고 노력했습니다. 세계가 제대로 동작하면 그때 외관을 조정했습니다:
- 세 개가 아닌 하나의 스타일 기준점을 사용합니다. “1990년대 DV 캠” 또는 “부드러운 필름 그레인.” “시네마틱, 빈티지, 거친”을 쌓으면 움직임이 흐려졌습니다.
- 스타일을 색상뿐 아니라 물리와 연결합니다. “약간의 어깨 흔들림이 있는 핸드헬드 캠”은 카메라 동작도 설정하는 스타일입니다.
- 꼭 필요한 경우에만 렌즈 등가를 언급합니다. “28mm 광각”은 때로 좁은 공간에서 도움이 됐지만, 렌즈 이야기는 동작 신호를 압도할 수 있습니다.
- 형용사가 아닌 동사로 질감을 표현합니다. “먼지 입자들이 햇빛 속에서 떠다닌다”가 “몽환적이고, 흐릿하고, 에테리얼하다”보다 낫습니다. 동사는 모델에게 애니메이션할 무언가를 줍니다.
Runway의 Gen-3와 같은 비디오 전용 모델과 비교했을 때, 월드 모델 프롬프트는 순수한 외관보다 행동과 어포던스에 더 강하게 반응한다는 것을 알았습니다. Gen-3에서 넘어왔다면 스타일 레이어를 줄이고 공간과 행동 줄을 늘려야 할 수도 있습니다.
스타일이 동작과 충돌하면, 스타일을 먼저 제거했습니다. 평범하고 믿을 수 있는 장면이 아름답지만 미끄러운 장면보다 낫습니다.
10가지 예시 프롬프트 분석
아래는 제가 사용했거나 유사하게 사용한 정확한 **Genie 3 프롬프트**입니다. 2026년 1월 말에 각각 3–5회 실행하며 한 번에 하나의 변수를 조정했습니다. 프롬프트와 실제로 어떤 변화가 있었는지 보여드리겠습니다.
포토리얼리스틱 장면
- “젖은 조약돌 바닥과 좌우 벽돌 벽이 있는 황혼의 좁은 골목. 깜빡이는 네온 사인 아래 금속 문을 향해 걸어가는 1인칭 시점. 손잡이를 잡고 문을 안쪽으로 밀어 엽니다.” 제약 조건: 안정적인 핸드헬드, 가벼운 비, 중력은 아래 방향.
결과: 문이 ~4–6초 안에 안정적으로 열렸습니다. 가벼운 비가 마찰감을 살리는 데 도움이 됐습니다. 발소리가 더 이상 미끄러지지 않았습니다. “안쪽으로 밀기”가 없으면 문이 때때로 반대 방향으로 열렸습니다.
- “밤의 작은 주방, 형광등이 윙윙거리는 소리. 3인칭, 허리 높이 카메라가 김이 나는 머그잔을 나무 테이블로 가져가는 사람을 따라갑니다. 머그잔을 내려놓기: 작은 물방울 튀김: 증기가 피어오릅니다.” 제약 조건: 카메라 돌리 없음, 부드러운 소음, 안정적인 그림자.
결과: 증기와 작은 물방울 튀김이 5회 중 4회 나타났습니다. “나무 테이블”을 잊으면 광택 있는 표면에서 머그잔이 약간 미끄러졌습니다. 재질 명시가 중요했습니다.
- “한산한 지하철 플랫폼, 차가운 흰 조명. 승객이 노란 안전선을 넘었다가 멈추고 다시 돌아오는 측면 뷰.” 제약 조건: 일정한 속도, 점프 컷 없음.
결과: 명확한 넘기-멈추기-돌아오기 동작. “멈추고 돌아온다”를 제거하자 모델이 손 흔들기나 전화 확인으로 즉흥적으로 대처했습니다. 그럴듯했지만 의도한 것이 아니었습니다.
- “카펫 바닥과 오른쪽 유리 벽이 있는 사무실 복도. 1인칭으로 키패드 문까지 달려가기: 손이 PIN을 입력: 문이 딸깍 소리와 함께 열립니다.” 제약 조건: 약간의 숨소리, 손목 높이 키패드, 중력은 아래 방향.
결과: “손목 높이 키패드”가 있을 때 가장 잘 작동했습니다. 없으면 손이 위로 떠올랐습니다. 숨소리 (단어로만 있어도)가 페이싱을 조정하고 로봇 같은 동작을 피하는 데 도움이 됐습니다.
- “낮은 천장과 광택 있는 콘크리트 바닥의 주차 건물. 3인칭에서 굴러가는 여행 가방이 과속 방지턱을 넘고, 흔들리다가 안정됩니다.” 제약 조건: 고정 카메라, 미묘한 에코, 일관된 반사.
결과: “과속 방지턱을 넘는다”고 말했을 때만 흔들림이 나타났습니다. “턱을 지나간다”고 쓰면 바퀴 흔들림이 사라지는 경우가 많았습니다. 접촉 신호가 있는 동사가 도움이 됐습니다.
스타일화된 환경
- “정오의 측면 스크롤 종이 디오라마 도시. 골판지 건물, 도르래에 매달린 그림 구름. 오려낸 캐릭터가 달려가 빨간 레버를 당기면 도개교가 내려갑니다.” 제약 조건: 시차 레이어, 선명한 가장자리, 중력은 아래 방향.
결과: 레버-다리 시퀀스가 깔끔하게 유지됐습니다. “빈티지 수채화 + 골판지 + 잉크”를 요청하자 가장자리가 번지고 다리가 끊겼습니다. 하나의 스타일 기준점이 메카닉을 온전하게 유지했습니다.
- “따뜻한 석양 빛의 저폴리 사막 협곡. 3인칭에서 구체 아바타가 모래 경사면을 굴러 내려가 왼쪽으로 꺾어 판자 다리 위로 올라갑니다.” 제약 조건: 일정한 구르기 속도, 모래 위에서 부드러운 미끄러짐, 카메라 롤 없음.
결과: 꺾기 턴이 5회 중 3회 작동했습니다. “카메라 롤 없음”을 추가하자 경사면을 실제보다 가파르게 느끼게 만드는 성가신 기울기가 멈췄습니다.
- “등거리 아늑한 선술집, 픽셀 아트, 32색 팔레트. 바텐더 스프라이트가 바를 닦고: 손님 스프라이트가 손을 흔들고: 문이 열릴 때 매달린 간판이 흔들립니다.” 제약 조건: 고정 등거리 카메라, 1회 흔들림.
결과: “1회 흔들림”을 지정했을 때 가장 잘 동기화됐습니다. 없으면 간판이 너무 오래 흔들려 스프라이트에서 시선을 빼앗았습니다.
- “옅은 안개 속의 수묵화 숲길. 1인칭으로 이끼 낀 통나무를 넘고, 카메라가 발걸음에 맞춰 내려갔다가 회복됩니다.” 제약 조건: 부드러운 발소리, 느린 머리 흔들림, 안개는 얇게 유지.
결과: 카메라 내려감이 발걸음을 살렸습니다. “안개는 얇게 유지”를 추가하자 모델이 극적인 안개로 통나무를 가리는 것을 방지했습니다.
- “늦은 오후의 레트로 DV 캠 스케이트파크. 스케이트보더가 작은 연석을 올리며 3인칭 팔로우, 착지, 약간의 바퀴 소음.” 제약 조건: 핸드헬드 흔들림 작게, 연석은 발목 높이, 그림자는 길게.
결과: “연석은 발목 높이”가 스케일을 고정하고 올리 높이를 향상시켰습니다. 없으면 트릭이 연석 접촉 없는 점프가 되는 경우가 있었습니다.
반복 작업에 대한 노트:
- 각 프롬프트를 제약 조건 하나를 빼거나 추가하며 시도했습니다. “중력은 아래 방향”을 제거하면 장면이 다시 둥둥 뜨는 느낌이 됐습니다. 골목과 스케이트파크에서 확연히 나타났습니다.
- 짧은 프롬프트가 긴 것보다 성능이 좋았습니다. 대부분은 ~30–45 단어에 제약 조건을 추가했습니다.
- (사용 가능할 때) 시드가 변경 사항을 비교하는 데 도움이 됐습니다. 작은 그리드를 유지했습니다: 3개의 시드 × 2개의 변형 = 아이디어당 ~6회 실행. 까다롭게 들리지만 시간을 절약했습니다.
해결하지 못한 몇 가지 한계:
- 키패드 숫자와 같은 정확한 텍스트는 흐릿하게 남았습니다. 가독성보다 행동에 집중했습니다.
- 긴 다단계 퍼즐 (세 가지 이상의 상호작용)은 두 번째 단계에서 흐려지는 경향이 있었습니다. 더 작은 단위로 나누는 것이 더 잘 작동했습니다.
- 반사가 강한 바닥은 때때로 컷 사이에서 그림자를 녹였습니다. “일관된 반사”를 명시하면 도움이 됐지만 매번 고치지는 못했습니다.





