Nano Banana 2 유출: Google의 차세대 AI 이미지 모델 엿보기

몇 개월 전, Nano Banana는 수집 가능한 스타일의 미학으로 초현실적인 AI 인물을 생성하는 것으로 알려졌습니다. 이제 다시 주목받고 있습니다 — 이번에는 예상 밖의 이유로요.

11월 10일, Google의 차세대 이미지 모델인 Nano Banana 2 (NB 2.0)의 초기 미리보기 빌드 가 제3자 플랫폼 Media.io 에 잠시 나타났습니다. 이 빌드는 몇 시간 안에 제거되었지만, 그것으로도 스크린샷과 테스트 결과가 온라인에서 광범위하게 퍼지기에 충분했습니다.

짧은 시간 동안 지속된 이번 유출은 이미 AI 커뮤니티 전역에서 치열한 논의를 불러일으켰습니다. 그렇다면 사람들은 실제로 무엇을 보았으며, Nano Banana 2는 생성형 이미징의 경계를 얼마나 밀어붙였을까요?

유출에서 본 첫인상

모델이 다운되기 전에 테스트할 수 있었던 사용자들은 눈에 띄는 예제들을 공유했습니다. 비공식적이지만, 이러한 초기 결과들은 빛, 재료, 맥락에 대한 훨씬 더 깊은 이해를 가진 모델을 시사합니다.

”물리학을 이해하는 AI”

“와인글라스 테스트” 와 “글래스 버거 챌린지” 로 비공식적으로 불리는 두 가지 초기 벤치마크는 Nano Banana 2가 투명성과 굴절을 얼마나 정확하게 처리할 수 있는지를 보여주었습니다.

와인글라스 예제에서, 유리와 액체를 통한 빛의 굴절각이 3도 미만으로 벗어난 것으로 보고되었습니다 — 생성형 모델로서는 인상적인 수준의 물리적 현실성입니다. “글래스 버거” 테스트는 유사한 경계를 밀어붙였으며, 단일 이미지에서 투명성, 반사 및 현실적인 표면 질감을 결합했습니다. 다른 데모인 “핑크 오션” 은 양식화된 수면 전체에서 정확한 색상 확산과 빛 반사를 보여주었습니다.

Wine glass and clock benchmark — 와인글라스 및 시계 테스트

더 빠른 생성 및 고충실도 텍스트

속도는 모델의 강점 중 하나로 보입니다: 복잡한 4K 장면이 약 10초 에 렌더링되는 것으로 보고되었습니다.

더욱 놀라운 것은 텍스트 렌더링의 정확성 입니다. 초기 테스터들은 Nano Banana 2가 읽을 수 있는 메뉴, URL, 심지어 타임스탬프 오버레이가 포함된 완전한 UI 목업을 생성할 수 있다고 주장합니다 — 확산 기반 모델에서 전통적으로 어려움을 겪었던 작업입니다.

AI-generated browser interface — AI 생성 브라우저 인터페이스

AI-generated human portraits and surveillance footage — AI 생성 인물 초상화 및 감시 영상

논리적 및 수학적 추론

유출된 테스트에서 보인 가장 흥미로운 기능은 아마도 시각적 추론 입니다. 손으로 쓴 수학 문제의 사진이 주어지면, Nano Banana 2는 질문을 해석할 수 있을 뿐만 아니라 마치 디지털 화이트보드에 쓰인 것처럼 단계별 도출 을 생성할 수 있습니다.

Visual math reasoning demo — 시각적 수학 추론 데모

이는 더욱 통합된 다중모드 이해 — 텍스트, 수학, 이미지 추론을 하나의 출력으로 결합하는 능력을 암시합니다.

Nano Banana 1과 2 비교: 시각적 현실성에서 인지적 일관성으로

업그레이드의 규모를 이해하기 위해, 여러 범주에 걸쳐 Nano Banana (V1) 과 Nano Banana 2 (V2) 간의 나란한 비교를 살펴봅시다.

프롬프트 충실도

프롬프트: “여자가 돌아서게 해줄래.”

Prompt fidelity comparison — (왼쪽에서 오른쪽으로) 원본 이미지, Nano Banana, Nano Banana 2

첫 번째 모델은 포즈를 조정할 수 있었지만, 종종 원본의 예술 스타일을 잃었습니다. 대조적으로, Nano Banana 2는 소스의 셀 셰이딩 미학과 라인 작업을 보존하면서 변환을 정확하게 수행했습니다. 결과는 재창조보다는 진정한 편집처럼 느껴집니다.

물리적 일관성

프롬프트: “시계 및 와인글라스 벤치마크를 완벽하게 통과했습니다 — 시계에 11:15, 와인글라스에 가득 찼습니다.”

Physical consistency comparison — (왼쪽에서 오른쪽으로) Nano Banana, Nano Banana 2

V2는 프롬프트를 거의 문자 그대로 따랐으며, 올바른 조명, 시간 및 반사를 포함했습니다. V1은 전반적인 장면을 포착했지만 주요 세부사항을 놓쳤습니다 — 더 제한된 장면 이해를 가진 더 오래된 모델의 신호입니다.

텍스트 렌더링 및 UI 시뮬레이션

Nano Banana V1 UI attempt — Nano Banana (V1)

Nano Banana V2 UI attempt — Nano Banana 2 (V2)

DeepMind의 Gemini 3 웹페이지를 표시하는 Windows 11 데스크톱의 스크린샷 을 생성하도록 요청받았을 때, Nano Banana 2는 실제 브라우저 스크린샷과 거의 구별할 수 없는 레이아웃을 생성했습니다. 텍스트, 아이콘 및 인터페이스 요소는 모두 선명하고 읽을 수 있었습니다.

비교하면, V1은 동일한 프롬프트를 왜곡되거나 읽을 수 없는 텍스트로 렌더링했습니다 — 이전 확산 모델의 일반적인 제한입니다.