Google DeepMind Genie 3: 인터랙티브 환경을 생성하는 세계 모델

Google DeepMind가 텍스트 프롬프트에서 인터랙티브 가상 환경을 생성하는 월드 모델인 Genie 3을 출시했습니다. 수동적인 콘텐츠를 생성하는 기존 비디오 생성기와 달리, Genie 3은 실시간으로 사용자 입력에 반응하는 탐색 가능한 세계를 만듭니다. 이 모델은 현재 미국의 Google AI Ultra 구독자들이 이용할 수 있습니다.

월드 모델이란?

월드 모델은 비디오 생성이나 정적 3D 재구성 기술과 근본적으로 다릅니다. Sora나 Runway 같은 비디오 생성기는 미리 정해진 시퀀스를 생성하고, NeRF나 Gaussian Splatting 같은 방법은 기존 장면을 재구성하지만, 월드 모델은 환경을 동적으로 시뮬레이션합니다.

Genie 3은 초기 프롬프트와 지속적인 사용자 상호작용 모두를 기반으로 프레임을 자동회귀적으로 한 번에 하나씩 생성합니다. 이는 환경이 고정된 시퀀스를 재생하는 대신 네비게이션과 행동에 반응하여 진화한다는 의미입니다.

주요 기능

실시간 생성

Genie 3은 720p 해상도에서 초당 24프레임의 콘텐츠를 생성합니다. 시스템은 사용자 입력에 즉시 반응하여 생성된 환경을 통해 매끄러운 네비게이션을 가능하게 합니다. 이는 프레임을 실시간으로 생성하면서 일관된 시각을 유지하는 중대한 기술적 성과를 나타냅니다.

환경 일관성

모델은 약 1분 정도의 시각적 메모리를 유지하여 사용자가 공간을 이동할 때 일관성을 보장합니다. 객체는 안정적으로 유지되고, 조명은 일관되게 유지되며, 관점이 변해도 전체 장면이 정체성을 유지합니다.

물리 시뮬레이션

Genie 3은 다양한 물리 현상을 시뮬레이션합니다:

수리학: 반사, 물결, 유체 움직임
조명: 동적 그림자, 시간대 변화, 대기 효과
날씨: 비, 구름, 안개 전환
동물 행동: 환경 내에서 움직이고 반응하는 생물

프롬프트 가능 이벤트

사용자는 상호작용 중 텍스트 프롬프트를 통해 생성된 세계에 변화를 주입할 수 있습니다. 여기에는 날씨 조건 변경, 물체 도입, 또는 환경 변화 유발이 포함되며, 모두 세션을 유지하면서 진행됩니다.

다양한 월드 타입

모델은 다양한 환경 유형을 처리합니다:

사진같은 풍경: 정확한 조명과 식생이 있는 자연 환경
환상적 시나리오: 외계 세계, 마법의 숲, 불가능한 건축
역사적 재구성: 시대 정확성을 갖춘 도시 풍경과 실내
추상적 공간: 비유클리드 기하학과 초현실적 환경

이전 버전의 진화

Genie 프로젝트는 여러 반복을 거쳐 진행되었습니다:

Genie 1은 이미지와 텍스트에서 게임 같은 환경을 생성하는 개념을 입증했지만 실시간 상호작용이 부족했습니다.

Genie 2는 시각적 품질과 일관성을 개선했지만 여전히 주로 제한된 상호작용 기능의 비디오 생성기로 작동했습니다.

Genie 3은 진정한 실시간 상호작용을 도입합니다. 사용자는 생성된 시퀀스를 보는 대신 자유롭게 네비게이션합니다. 모델은 움직임과 행동에 즉시 반응하여 이전 버전과 근본적으로 다른 경험을 만듭니다.

사용 사례

연구 응용

Genie 3 같은 월드 모델은 맞춤형 시뮬레이션을 구축할 필요 없이 다양한 시뮬레이션 환경에서 AI 에이전트를 훈련할 수 있게 합니다. 로봇 연구자들은 네비게이션 알고리즘을 테스트할 수 있고, 자율 시스템 개발자는 에이전트를 규모 있게 다양한 시나리오에 노출시킬 수 있습니다.

교육 환경

상호작용적 생성 세계는 교육 목적으로 활용될 수 있습니다. 학생들이 역사 시대를 탐색하거나, 접근할 수 없는 위치를 방문하거나, 네비게이션 가능한 3D 공간에서 추상적 개념을 시각화할 수 있습니다.

창의적 및 미디어 제작

콘텐츠 크리에이터는 Genie 3을 개념 탐색, 무드보드, 사전 시각화에 사용할 수 있습니다. 생성된 환경을 걸어다니는 능력은 공간 계획을 위해 정적 이미지 생성보다 이점을 제공합니다.

게임 및 프로토타이핑

게임 디자이너는 에셋을 구축할 필요 없이 환경을 빠르게 프로토타입하고 공간 아이디어를 테스트할 수 있습니다. 현재 시스템은 프로덕션 게임 엔진을 대체할 수는 없지만 초기 단계 탐색을 가속화합니다.

현재 제한 사항

Genie 3은 주목할 만한 여러 제약이 있습니다:

지속 시간: 상호작용은 몇 시간이 아닌 몇 분 정도 지속됩니다. 시스템은 기존 게임이나 시뮬레이션과 비교할 수 있는 장시간 세션용으로 설계되지 않았습니다.

지리적 정확성: 실제 위치가 정확하지 않을 수 있습니다. 모델은 정확한 재구성보다는 그럴듯한 환경을 생성합니다.

텍스트 렌더링: 많은 생성 모델처럼 Genie 3은 장면 내에서 읽을 수 있는 텍스트 렌더링에 어려움을 겪습니다.

다중 에이전트 상호작용: 여러 자율 엔티티를 포함하는 복잡한 시나리오는 여전히 어렵습니다. 모델은 인구가 많은 사회 장면보다 환경을 더 잘 처리합니다.

행동 제한: 사용자 상호작용은 주로 네비게이션 기반입니다. 복잡한 조작이나 물리 상호작용은 기존 게임 엔진 수준에서는 지원되지 않습니다.

이용 가능성

Genie 3은 현재 미국의 Google AI Ultra 구독자에게만 이용 가능합니다. 이 출시는 2025년 8월에 공개된 연구 미리보기 이후이며, 공개 버전은 2026년 1월 29일에 출시되었습니다.

접근을 위해서는 활성 AI Ultra 구독이 필요합니다. 국제 이용 가능성은 아직 공지되지 않았습니다.

AI 개발에 대한 함의

Genie 3은 공간 환경을 이해하고 시뮬레이션하는 AI 시스템을 향한 진전을 나타냅니다. 월드 모델은 수동적 생성과 상호작용적 시뮬레이션 사이의 간극을 좁힙니다.

이 개발에서 몇 가지 트렌드가 드러납니다:

훈련 환경: AI 시스템은 손으로 제작한 시뮬레이션보다는 생성된 세계에서 훈련할 가능성이 높아져 개발 비용을 줄이고 시나리오 다양성을 증가시킬 수 있습니다.

상호작용적 AI: 콘텐츠 생성과 상호작용적 시스템 간의 경계는 계속 모호해집니다. 미래 AI는 생성과 시뮬레이션 사이를 매끄럽게 전환할 수 있을 것입니다.

계산 요구 사항: 이 품질 수준의 실시간 월드 생성은 상당한 컴퓨팅 리소스를 요구하여 현재 클라우드 기반 시스템으로의 배포를 제한합니다.

결론

Genie 3은 AI가 텍스트 설명에서 일관된 인터랙티브 3D 환경을 생성할 수 있음을 입증합니다. 지속 시간, 정확성, 상호작용 복잡성 주변의 제한이 존재하지만, 시스템은 새로운 AI 기능 범주를 확립합니다.

Genie 3 같은 월드 모델은 상호작용을 추가하여 기존 AI 비디오 및 이미지 생성기를 보완합니다. 이러한 시스템이 개선됨에 따라 생성된 콘텐츠와 상호작용적 시뮬레이션 간의 구분은 계속 좁혀질 것입니다.

AI 생성 환경에 관심이 있는 연구자, 크리에이터, 개발자들을 위해 Genie 3은 월드 모델이 달성할 수 있는 것이 무엇인지, 그리고 어디로 나아가고 있는지를 보여주는 초기 경험을 제공합니다.