Gemini Omni 데모가 유출됐다 — 구글의 새 비디오 모델이 실제로 하는 것들

5월 3일 최초 Omni 유출 소식을 전했을 때, 전체 내용은 단 하나의 UI 문자열에 불과했다. 8일이 지난 지금, 그림이 상당히 채워졌다. Gemini 모바일 앱에는 모델이 생성한 실제 샘플 영상이 등장했고, 내부 모델 ID(bard_eac_video_generation_omni)가 유출됐으며, 현재로서 초기 판단을 내릴 수 있을 만큼 충분한 체험 후기가 공개됐다.

요약하자면: Omni는 실재하며, Veo 3.1의 이름 변경이 아닌 새로운 모델일 가능성이 거의 확실하다. 그리고 AI 영상 제품을 개발하는 사람들이 중요하게 여기는 충실도, 편집 기능, 비용 측면에서 리더보드 상위 모델들과는 매우 다른 강점과 약점을 가지고 있다. Google I/O 2026(5월 19~20일) 7일 전, 지금까지 밝혀진 내용을 정리한다.

이번 주에 드러난 내용

2026년 5월 11일, TestingCatalog와 X 사용자 @Thomas16937378이 Gemini 모바일 앱의 영상 생성 흐름에서 신선한 샘플들을 추출했다. 모델 카드 텍스트는 플레이스홀더(“Powered by Omni”)에서 완전한 제품 설명으로 바뀌었다:

Gemini Omni로 만들다: 새로운 영상 모델을 만나보세요. 영상을 리믹스하고, 채팅에서 직접 편집하고, 템플릿을 사용해 보세요.

세 가지 구체적인 세부 사항도 함께 공개됐다:

내부 모델 ID: bard_eac_video_generation_omni. “Bard EAC”는 실험적 기능을 위한 Gemini 앱의 내부 네임스페이스이며, _omni 접미사는 이것이 Veo의 변형이 아닌 별개의 모델로 취급됨을 확인해 준다.
현재 미리 보기 티어에서 생성 클립의 10초 제한. Veo 3.1은 기본적으로 8초, 확장 시 16초까지 지원하는 반면, Omni는 현재 그 사이에 위치하며 아직 확장 경로는 보이지 않는다.
Gemini 설정에 새로운 사용 한도 탭 추가. 이는 월정액 구독 할당량이 아닌 크레딧 측정 방식의 출시를 의미하며, Google이 고비용 에이전틱 기능(Deep Research, Notebook Plus)을 출시할 때 사용해 온 방식과 일치한다.

이는 증거의 질에서 의미 있는 업그레이드다. 5월 3일의 유출은 UI 텍스트뿐이었다. 이번에는 UI 텍스트 + 작동하는 엔드포인트 + 관찰 가능한 출력물 + 결제 인터페이스까지 갖춰졌다.

사람들이 본 두 개의 샘플 영상

두 샘플 모두 Gemini 앱에서 나왔으며, AI Pro 접근 권한을 가진 사용자들이 추정되는 롤백 전에 모델을 호출할 수 있었던 것이다. Omni가 어떤 모델 계보에 속하는지를 알 수 있기 때문에 자세히 설명할 가치가 있다.

샘플 1 — “전통적인 칠판에 삼각함수 항등식의 수학적 증명을 쓰고 있는 교수.” 리뷰어들은 텍스트 렌더링이 “놀랍도록 잘” 처리됐다고 평했다. 분필 방정식이 읽을 수 있었고, 이전 영상 모델들이 만들어내던 기호 뒤범벅이 아닌 수학적으로 그럴듯해 보였다. 손과 팔의 움직임도 자연스럽게 표현됐다. chromeunboxed의 리뷰는 여전히 “최종 출력물에서 AI의 흔적이 명백하다”고 지적했지만 구체적인 내용은 명시하지 않았다. 아마도 부자연스러운 미세 안구 운동, 손 메시 아티팩트, 약간 흔들리는 분필 형태의 조합일 가능성이 높다.

샘플 2 — “고급 레스토랑에서 스파게티를 먹고 있는 두 남자.” “꽤 현실적”이라고 묘사됐다. 파스타 돌리기 테스트는 잠재 공간 영상에서 잘못될 수 있는 모든 것을 압박하기 때문에 1년 동안 비공식 벤치마크가 됐다: 도구와 음식의 접촉, 유체와 같은 움직임, 가려짐 속에서도 일관된 얼굴 정체성. Omni는 이를 언급할 만큼 잘 처리했지만, “통과 가능한” 수준의 기준이 올해 높아졌다는 단서가 붙었다. Seedance 2.0과 Wan 2.7 모두 해당 기준을 안정적으로 충족한다.

두 개의 샘플은 벤치마크가 아니다. 하지만 서로 다른 난이도 영역(프레임 내 텍스트와 접촉 물리학)에서의 두 샘플은, 두 리뷰어 모두 강하지만 완벽하지 않다는 결과를 지적하면서, Omni를 Veo 3.1과 같은 티어에 위치시키기에 충분하다. 원시 충실도에서 Veo 3.1을 능가하지는 못하며, Seedance 2.0보다 명확히 아래다.

Omni가 실제로 앞서는 부분: 채팅 기반 편집

이번 주 체험 리뷰에서 흥미로운 결과는 Omni의 두드러진 능력이 생성 품질이 아니라는 점이다. 바로 편집이다. 구체적으로:

자연어 채팅 지시를 통한 입력 클립의 워터마크 제거
장면 내 객체 교체 (“빨간 차를 파란 차로 바꿔줘”)
대화형 차례 교환을 통한 장면 재작성 — 변경할 내용을 설명하면 모델이 편집된 버전을 반환하고, 이를 반복

이는 Seedance 2.0 Video-Edit나 Wan 2.7 Edit이 현재 제공하는 것과는 의미 있게 다른 영역이다. 해당 모델들은 명령식 지시 편집(“이어폰을 제거해”, “여성의 코트를 빨간색으로 바꿔”)에는 탁월하지만, 단일 소스 클립에 대해 다중 턴 편집 대화를 유지하지는 못한다. 현재 가장 유사한 사례는 Kling Omni Video O1의 자연어 편집 플로우로, 출시 당시 자세히 다룬 바 있다.

Omni가 단순히 또 다른 텍스트-투-비디오 엔드포인트가 아닌 채팅 우선 영상 편집기로 출시된다면, 그것이 고유 가치 제안의 핵심이다. Google은 대부분의 순수 영상 모델 벤더들이 갖지 못한 방식으로 다중 턴 수정이 기본적으로 작동하게 만들 LLM 스택을 보유하고 있다.

비용 이야기

가장 눈에 띄는 데이터 포인트: 한 테스터가 영상 프롬프트 두 개만으로 일일 AI Pro 할당량의 86%를 소비했다고 보고했다. 이는 클립당 Pro 하루 할당량의 약 43%로, Flash 티어 이미지 생성이 아닌 프론티어 영상 모델에 걸맞은 비용 프로파일이다.

몇 가지 시사점:

Gemini 앱에서 실행 중인 미리 보기 모델은 거의 확실히 Flash가 아닌 Pro/전체 티어다. TestingCatalog는 Flash 변형이 함께 출시될 것으로 추정하지만, 우리가 본 샘플들은 그것에서 나온 것이 아니다.
이 비율의 클립당 크레딧 소모는 소매가 기준 10초 클립당 $0.30~$0.50에 해당하며, Veo 3.1(미리 보기 가격 $0.50/s)과는 경쟁력 있지만 Seedance 2.0 Fast보다는 비싸다.
Google은 I/O 발표에서 거의 확실히 명시적인 사용 티어를 도입할 것이다. 새로운 사용 한도 탭이 그 신호다. 캐주얼 사용자를 위한 Flash 비용 티어와 빌더를 위한 AI Studio의 사용량 기반 종량제 티어를 기대하라.

Omni가 실제로 무엇인지에 대한 현재 판단

3주 전에는 세 가지 그럴듯한 해석이 있었다: Veo 리브랜드, 별개의 Gemini 영상 모델, 또는 완전한 옴니 모달리티 모델. 5월 11일의 증거가 이를 좁혀준다:

별개의 모델 ID(_veo가 아닌 _omni 접미사)는 단순한 Veo 리브랜드를 배제한다. Google은 미리 보기 출시 중에 기존 모델 엔드포인트의 이름을 바꾸는 일이 없다.
편집 우선 제품 프레이밍 — “리믹스, 채팅에서 직접 편집” — 은 항상 텍스트-투-비디오 + 확장으로 소개됐던 Veo에서 Google이 사용한 언어가 아니다. 이는 다른 학습 목표를 가진 별개의 모델처럼 읽힌다.
유출된 샘플 중 이미지 출력 증거가 없다. 이름이 시사하는 통합 옴니 모달리티 모델이라면, 같은 엔드포인트에서 이미지 생성이 표면화될 것을 기대할 수 있다. 지금까지 모든 유출은 영상 전용이었다.

현 시점에서 가장 유력한 해석: Omni는 새로운 Gemini 훈련 영상 모델로, Veo를 대체하는 것이 아닌 Veo와 나란히 위치하며, 편집 우선 제품 포지셔닝을 갖는다. Nano Banana는 Google이 같은 모달리티 내에서도 브랜드를 분리할 의지가 있음을 보여준다(텍스트-투-이미지는 Nano Banana와 Gemini 3 Flash Image 이름 모두로 실행된다). Omni와 Veo의 공존은 그 패턴과 유사하다.

이름이 시사하는 완전히 통합된 옴니 모달리티의 꿈은 아마도 여전히 미래 세대의 이야기일 것이다. 다음 주에 출시된다면 — 만약 출시된다면 — Google의 LLM 기본 채팅 인터페이스가 결합된 경쟁력 있는 영상 편집기가 될 것이다.

평가에서 달라지는 것

AI 영상과 관련된 무언가를 개발하고 있다면, 앞으로 2주 안에 세 가지가 바뀐다:

평가 스위트에 편집 벤치마크를 추가하라. 대부분의 영상 모델 평가는 텍스트-투-비디오만 다룬다. Omni의 가치 제안이 채팅 기반 편집이라면, 비교는 생성 충실도만으로 이루어질 수 없다. 다중 턴 일관성, 편집을 통한 객체 정체성 보존, 두 번째와 세 번째 턴에서의 지시 준수를 테스트하는 “이 클립을 편집해줘” 프롬프트 배터리가 필요하다.
Seedance 2.0 / Wan 2.7 / Omni 삼각형을 작업 세트로 취급하라. Sora 2와 Veo 3.1은 이제 이 삼각형에 대한 이전 세대 참조로 가장 잘 이해된다. 세 모델 각각은 뚜렷한 강점을 가지고 있다: Seedance는 충실도에서, Wan은 멀티모달 참조 입력에서, Omni는(잠정적으로) 채팅 편집에서 앞선다.
Pro 티어 가격을 예산에 포함하라. 일일 할당량 43% 소모 데이터 포인트는 이번 주의 가장 강한 신호다. 워크플로우가 대규모 클립 생성을 포함한다면, Flash 티어 출시가 Pro 티어보다 더 중요할 것이다. 해당 발표를 구체적으로 추적하라.

앞으로의 일주일

Google I/O는 2026년 5월 19일에 열린다. 화요일 기조연설 슬롯은 Gemini와 DeepMind 발표가 전통적으로 이루어지는 자리다. 이번처럼 통제된, 이처럼 완전한 사전 기조연설 유출 — 모델 카드 텍스트, 샘플 영상, 결제 인터페이스, 모두 한 주 안에 — 은 이미 내부 검토를 통과하고 일정만을 기다리는 출시와 일치한다.

당일 주목해야 할 네 가지:

Flash 티어가 있는가, 그리고 비용은 얼마인가?
편집 가치 제안이 진짜인가, 아니면 단일 샘플 노이즈였는가? 구체적으로, Google이 무대에서 다중 턴 편집을 라이브로 시연하는가?
API 경로는 무엇인가? AI Studio? Vertex? 둘 다?
오디오 동기화: 유출된 샘플 중 어느 것도 Omni가 Veo 3.1처럼 동기화된 오디오를 생성하는지 다루지 않는다. 그렇지 않다면, 그것은 실질적인 격차다.

WaveSpeedAI에서 현재 대안을 사용해 보기

Omni가 출시될 때까지, 2026년 영상 생성 분야의 나머지 모델들은 WaveSpeedAI에서 하나의 API로 사용 가능하다:

Seedance 2.0 — 원시 충실도에서 현재 SOTA이며, 저지연을 위한 Fast 변형 포함
Wan 2.7 — Alibaba의 참조 풍부한 영상 모델
Kling V3.0 Pro — Kuaishou의 고충실도 옵션
Kling Omni Video O1 Edit — 자연어 영상 편집, Omni의 가치 제안에 가장 가까운 현재 대안
Sora 2 — OpenAI의 제품
Veo 3.1 — 현재 Google 영상 모델

Gemini Omni가 공개 출시되면, 같은 API에서 며칠 내에 비교 가능할 것으로 예상한다.

출처: TestingCatalog, 9to5Google, Chrome Unboxed, OfficeChai.

이번 주에 드러난 내용

사람들이 본 두 개의 샘플 영상

Omni가 실제로 앞서는 부분: 채팅 기반 편집

비용 이야기

Omni가 실제로 무엇인지에 대한 현재 판단

평가에서 달라지는 것

앞으로의 일주일

WaveSpeedAI에서 현재 대안을 사용해 보기

관련 기사

Gemini Omni Flash vs Seedance 2.0 vs Kling 3.0: 멀티모달 창작을 위한 최고의 AI 비디오 모델

Kling 3.0 Omni 완전 분석: 멀티샷 스토리보딩, 네이티브 오디오, 그리고 Veo를 앞서는 부분

Seedance 2.0 기술 분석: 오디오-비디오 생성이 기본값이 되는 이유

Agnes-Video-V2.0, WaveSpeedAI에 출시 — 분당 $0.30의 가격 파괴자

Claude Sonnet 4.8: 유출 내용의 실제 의미와 패턴이 맞지 않는 이유

Gemini 3.5 Flash 출시 — 플래시 티어 모델이 에이전트 벤치마크에서 프로 티어를 앞서다