← 블로그

Gemini Omni Flash 출시: 10초 멀티모달 비디오, SynthID 워터마크 적용, 오디오 편집 기능 미포함

Google이 I/O 2026에서 Gemini Omni Flash를 공개했습니다 — 텍스트, 이미지, 오디오, 비디오를 통합 추론하여 오디오가 동기화된 일관된 비디오 출력을 생성하는 단일 모델입니다. 무엇이 출시되었고, 무엇이 출시되지 않았으며, Veo와 어떻게 다른지 살펴봅니다.

By WaveSpeedAI 6 min read

5월 3일 UI 문자열 유출5월 11일 데모 유출 모두 이를 예고했다. 2026년 5월 19일 기준, Gemini Omni Flash가 출시됐다 — Google의 Omni 프레임워크 최초의 공개 모델로, 당일 Gemini 앱, Google Flow, YouTube Shorts에서 동시에 일반 제공된다. 단일 멀티모달 프롬프트로 10초짜리 영상 클립을 동기화된 오디오와 함께 생성하며, 채팅을 통해 해당 클립을 편집할 수 있다. 다만 생성된 영상 내의 음성이나 오디오를 편집하는 기능은 지원하지 않는다 — 이 기능은 의도적으로 보류된 상태다.

이하에서는 실제로 출시된 내용, 사전 공개 유출이 놓친 부분, 그리고 Omni Flash가 프로덕션 결정에서 Veo, Sora 2, Seedance 2.0 대비 어떤 위치에 있는지를 다룬다.

출시된 내용

항목확인 사항
모델명Gemini Omni Flash
생성 길이10초, 동기화된 오디오 포함
입력텍스트 + 이미지 + 오디오 + 비디오 (모든 조합 가능)
출력입력을 추론하여 생성한 일관된 영상 — 단순 연결 방식 아님
편집대화형 채팅 방식 (“조명을 바꿔줘”, “강아지를 고양이로 교체해줘”)
워터마킹모든 출력에 SynthID 내장
배포 (소비자)Gemini 앱, YouTube Shorts, YouTube Create, Flow
배포 (유료 구독자)Gemini AI Plus ($7.99/월), Pro, Ultra
배포 (개발자 API)“몇 주 이내”
상위 버전Omni Pro 계획 중, 출시일 미정

10초 제한은 가장 흥미로운 제품 결정이다. 구글이 발표 현장에서 밝힌 이유: “모델의 한계가 아니라, 더 많은 사람에게 제공하고 싶은 바람과 대부분의 사용자가 아직 더 긴 영상을 원하지 않을 것이라는 예상에 기반한 결정입니다.” 이는 아키텍처적 상한선이었던 Veo 3.1의 8초 제한보다 더 유연한 롤아웃 태도다. Omni Flash는 Google이 정책을 완화하는 순간 더 긴 영상을 생성할 수 있을 것으로 보인다.

사전 공개 보도에서 맞은 것과 틀린 것

맞은 내용:

  • Omni는 Veo의 리브랜딩이 아닌 새로운 모델이다. 아키텍처와 제품 인터페이스가 명확히 다르다.
  • 편집 우선 제품 포지셔닝. 대화형 장면 재구성이 데모의 핵심이었다.
  • Flash + Pro 티어 분리가 예정되어 있었다.
  • 오디오 동기화는 실제로 출시 첫날부터 제공됐다.

틀린 내용:

  • 5월 11일 유출에서 나온 “원시 충실도에서 Seedance 2.0에 뒤처진다”는 표현은 Google이 현장에서 보여준 내용으로는 뒷받침되지 않는다. 출시 데모(단백질 접힘을 설명하는 클레이메이션; 물리적으로 정확한 음향 효과와 함께 튀는 구슬)는 접촉 물리학, 재질 표현, 내레이션, 다단계 서사를 강조하기 위해 의도적으로 선택된 것이었다 — Seedance가 측정 가능한 약점을 보였던 카테고리들이다. 독립적인 벤치마크 없이는 Omni가 앞선다고 말할 수 없지만, “뒤처진다”는 표현은 성급했다.
  • 5월 11일 유출에서 나온 “일일 할당량의 43% 비용” 데이터 포인트. 출시 첫날 가격은 구독 기반($7.99/월 시작)으로 책정됐으며, YouTube Shorts와 YouTube Create를 통한 무료 접근도 제공된다. 클립당 비용 이야기는 배포 볼륨 이야기로 대체됐다.

Omni Flash가 Veo와 다른 네 가지 점

프로덕션 결정에서 가장 중요한 질문이며, 명확한 답변이 있다.

1. 입력

Veo 3.1: 텍스트 → 영상. 이미지 → 영상. 그게 전부다.

Omni Flash: 텍스트 + 이미지 + 오디오 + 비디오를 하나의 프롬프트에서, 모델이 단순 연결이 아닌 추론을 통해 처리한다. 캐릭터의 참조 이미지, 말하게 하고 싶은 대화의 오디오 파일, 원하는 조명의 비디오를 제공하면 세 가지 제약을 모두 반영한 하나의 출력을 얻을 수 있다.

2. 편집

Veo 3.1: 텍스트 프롬프트 기반 재생성. 각 편집은 수정된 프롬프트로 새로 생성하는 방식이다.

Omni Flash: 채팅 기반 점진적 편집. “조명을 더 따뜻하게 해줘.” — 그러면 다음 응답이 기존 클립을 나머지는 그대로 유지하면서 편집한다. LLM 네이티브 아키텍처의 이점이 발휘되는 영역이다.

3. 오디오

Veo 3.1: 영상과 동기화된 오디오.

Omni Flash: 동기화된 오디오 플러스 입력 오디오를 생성 제약 조건으로 활용하는 기능. 그러나 — 이 점이 중요한데 — 생성된 영상의 오디오 및 음성 편집은 보류된다. Google은 명백히 선거 연도 딥페이크 노출과 관련된 안전 이유로 “보이스오버 편집 불가” 모드로 모델을 출시하고 있다. 정책과 탐지 체계가 안정되면 완화될 것으로 예상된다.

4. 배포

Veo 3.1: Vertex API, AI Studio, 프리미엄 가격의 Veo 앱.

Omni Flash: 이번 주부터 YouTube Shorts와 YouTube Create를 통한 무료 접근. 유료 접근은 Google AI Plus의 $7.99/월부터 시작. 이는 완전히 다른 시장 진입 방식이다 — Google은 YouTube의 배포망을 활용해 수억 명의 사용자에게 추가 비용 없이 Omni를 제공하고 있다.

SynthID + 오디오 보류 조합이 말해주는 것

Google은 Omni Flash를 소비자 제품 우선, 개발자 제품 그 다음으로 취급하고 있다. 이를 명확히 보여주는 두 가지 정책 선택:

  1. SynthID는 선택 사항이 아니다. 모든 출력에는 Gemini 앱, Chrome, Search를 통해 검증 가능한 비가시적 워터마크가 있다. 이를 끌 수 있는 API 옵션이 없다. 깨끗한 출력이 필요한 상업적 사용 사례라면, 개발자 API가 출시될 때까지 적합한 레이어가 아니다.
  2. 오디오/음성 편집이 보류됐다. 이는 아키텍처가 지원하는 가장 위험한 기능 — 기존 영상의 음성을 수정하는 기능이다. 이를 보류한 것은 Google이 규제 및 평판 리스크가 어디에 있는지 읽고 있다는 신호다. 아직 출시되지 않은 기능을 중심으로 프로덕션 워크플로를 계획하지 말 것.

“Omni Pro” 발표가 이를 뒷받침한다. Google은 Pro가 “Flash보다 한 단계 높은 성능을 확인할 때” 출시된다고 명시했다 — “곧 출시 일정을 알려드리겠습니다”가 아니다. 이 표현은 정책 검토가 아닌 학습이 완료되지 않은 모델과 일치한다.

오늘 빌더들이 취할 수 있는 것

세 가지 구체적인 판단:

  1. 소비자 대면 크리에이티브 도구의 경우, Omni Flash는 Google 배포 영역 내에서 새로운 기본값이다. 최종 사용자를 대상으로 하는 영상 제작 앱이라면 이를 별도로 테스트해야 한다.
  2. 개발자 파이프라인의 경우, 조금만 기다려라. API는 “몇 주 이내” — 2주일 수도, 8주일 수도 있다. API 접근 없이, Omni Pro 출시 일정도 없는 상황에서 프로덕션급 영상 모델 분야는 아직 실질적으로 변하지 않았다. Veo 3.1, Seedance 2.0, Sora 2가 여전히 프로덕션 옵션이다.
  3. 평가를 위해 지금 프롬프트를 준비하라. 세 가지 테스트 카테고리를 선정하라: 접촉 물리학(구슬 데모), 보이스오버 내레이션(클레이메이션 데모), 품질 저하 없는 대화형 편집(다턴 편집 세션의 세 번째 턴). 현재 프로덕션 모델로 실행해 Omni Flash가 API 키에 나타나기 전에 기준선을 확보하라.

앞으로 주목할 사항

향후 2~4주 내 네 가지 신호:

  1. 개발자 API 출시. 가격, 속도 제한, Vertex AI 인터페이스가 AI Studio와 일치하는지 여부. 핵심 질문: API 호출에 SynthID가 내장되는지, 상업 계정에서 이를 끌 수 있는지?
  2. 더 긴 영상 길이. 10초 제한은 정책 결정이다. 누군가가 30초짜리 클립을 생성하는 순간, 그 변화는 안전 파이프라인에 대한 Google의 자신감을 보여준다.
  3. 오디오 편집 복귀. 이것이 출시될 때, 딥페이크 위험 모델이 내부 검토를 통과했다는 신호다. 모델 자체보다 더 흥미로운 기능 이야기다.
  4. Omni Pro의 실제 벤치마크 프로파일. “Flash보다 한 단계 높은 성능”이라는 표현은 Anthropic이 Opus 출시 전에 사용했던 것과 같은 헤지 — 점진적 출시보다 의미 있는 성능 도약을 기대해야 한다는 의미다. 시스템 카드를 주목하라.

개발자 API가 출시되고 Omni Flash가 영상 생성 최전선과 함께 접근 가능해지면, 하나의 키 아래에서 — Veo 3.1, Seedance, Sora 2, Kling Omni Video O1과 함께 — 비교하게 될 것이다. WaveSpeedAI의 현재 Google 모델 라인업 — Veo 3.1, Veo 3 Fast, Gemini 3 Pro Image 등 — 은 오늘 동일한 API에서 이용 가능하다.