Qwen3.5-Omni란 무엇인가: 기능, 변형 모델, API 액세스

안녕하세요 여러분! Dora가 다시 돌아왔습니다! 영상 프로젝트를 편집하던 중 알림이 떴습니다: **Qwen3.5-Omni**가 출시되었습니다. 저는 몇 달째 몇 가지 프로덕션 워크플로우에서 Qwen3-Omni 패밀리를 사용해왔기 때문에, 이번이 단순한 마이너 패치가 아니라는 걸 즉시 알 수 있었습니다. 256K 컨텍스트 윈도우, 음성 복제, 의미론적 인터럽션, 그리고 음성 인식을 위한 113개 언어 — 이 모든 것이 하나의 모델에 담겨 있습니다. 하던 일을 멈출 수밖에 없었습니다.

음성 에이전트, 자막 파이프라인, 또는 실제 인간의 오디오와 비디오를 함께 처리해야 하는 무언가를 개발하고 있다면, 이번 릴리스는 여러분과 직접적으로 관련이 있습니다. 이 모델이 실제로 무엇을 하는지, 세 가지 변형이 실제로 무엇을 의미하는지, 그리고 접근 방법 — 오늘 현재 여전히 불분명한 것들까지 — 을 안내해 드리겠습니다.

Qwen3.5-Omni가 실제로 하는 것

단일 추론 호출로 텍스트, 이미지, 오디오, 비디오 처리

AI 발표에서 계속 과소평가되는 부분이 있습니다: 네이티브 멀티모달 처리와 파이프라인을 이어 붙인 멀티모달 처리는 같은 것이 아닙니다.

ChatGPT 5.4와 같은 비-옴니모달 모델 에 영상을 입력하면, 비전 모델로 프레임을 추출하고, Whisper 같은 도구로 오디오를 전사하고, 임베디드 자막을 읽기 위해 OCR을 적용해야 합니다 — 진정한 옴니 모델이 단일 패스에서 처리하는 것을 근사하기 위해 세 개의 별도 프로세스를 이어 붙이는 방식입니다. 이상적인 조건, 즉 조명이 좋고 오디오가 깨끗한 클립에서도 실제 테스트에서 9분이 걸렸습니다.

Qwen3.5-Omni는 동일한 입력을 한 번의 호출로 처리합니다. 영상을 보내면 응답을 받습니다. 중간 파이프라인 없음. 포맷 변환 오버헤드 없음. 화면에서 무슨 일이 일어나는지 모르는 오디오 모델과 아무것도 들을 수 없는 비전 모델 없음.

이 모델은 텍스트, 이미지, 오디오, 오디오-비디오 이해를 지원하며, Thinker와 Talker 컴포넌트 모두 Hybrid-Attention MoE 아키텍처를 사용합니다. 마지막 부분은 들리는 것보다 훨씬 중요한데, 아래 아키텍처 섹션에서 설명하겠습니다.

실제 “옴니모달”의 의미 vs. 이어 붙인 파이프라인

그 차이는 이어 붙인 시스템에 진짜로 어려운 시나리오에서 드러납니다. 예를 들어: 누군가가 동시에 코딩하고 내레이션하는 화면 녹화. 또는 컨텍스트의 절반이 구두이고 절반이 화면에 있는 고객 서비스 통화. 또는 주변 오디오와 시각적 행동이 각각 독립적으로 의미를 전달하는 접근성 자막 워크플로우.

Qwen 팀은 “Audio-Visual Vibe Coding”이라고 부르는 것을 시연했습니다 — 모델이 코딩 작업의 화면 녹화를 보고 텍스트 프롬프트 없이 순전히 보고 듣는 것만으로 작동하는 코드를 작성할 수 있습니다.

데모 이름은 이상하지만, 텍스트 우선 모델에 오디오를 덧붙인 것과 비교했을 때 실제 기능 차이가 있습니다. 추론과 인식이 동일한 모델 내에서 동시에 이루어질 때, 교차 모달 컨텍스트가 필요한 것들이 실제로 작동합니다.

세 가지 변형: Plus, Flash, Light

Plus — 벤치마크 선두, 비용이 가치 있을 때

Qwen3.5-Omni-Plus는 오디오 및 오디오-비디오 이해, 추론, 상호작용 작업에서 215개의 SOTA 결과를 달성했습니다. 큰 숫자이며, Alibaba 벤치마크는 공격적으로 집계하는 경향이 있습니다 — 하지만 독립적인 비교에서도 중요한 카테고리에서 이를 뒷받침하고 있습니다.

표준 벤치마크에서, Qwen3.5-Omni Plus는 일반 오디오 이해, 추론, 번역 작업에서 Gemini 3.1 Pro를 능가했으며, 오디오-비주얼 이해에서는 동등한 성능을 보였습니다. 20개 언어에 걸친 다국어 음성 안정성에서는 ElevenLabs, GPT-Audio, Minimax를 앞질렀습니다.

음성 복제는 API를 통해 Plus와 Flash 모두에서 사용 가능합니다 — 10~30초 음성 샘플을 보내면 모델이 출력을 위해 복제합니다.

언제 Plus에 돈을 쓰나요? 출력 품질이 사용자가 실제로 알아채는 것일 때입니다. 음성 자연스러움이 핵심 가치 제안인 음성 에이전트 제품. 희귀 언어에서의 정확도가 중요한 고위험 전사. Gemini나 GPT-Audio와 직접 비교하며 품질에서 이겨야 하는 모든 것.

Flash — 처리량과 지연 시간 트레이드오프

Flash는 API 문서에 따르면 프로덕션 사용을 위한 기본 권장 사항입니다. 모델 ID는 표준 변형의 경우 qwen3.5-omni-flash이며, Flash는 대부분의 프로덕션 시나리오에서 지연 시간, 품질, 응답 균형을 맞출 때 기본값으로 설명됩니다.

AI 지원 워크플로우를 구축하는 크리에이터들 — 자동 자막 파이프라인, 실시간 인터뷰 전사, 대규모 영상 요약 — 에게 Flash는 거의 확실히 시작점입니다. Plus와 비교 테스트하여 특정 사용 사례에서 품질 차이가 비용 차이를 정당화하는지 확인하세요.

이전 버전인 Qwen3-Omni Flash는 이미 234밀리초만큼 낮은 지연 시간으로 스트리밍 음성 응답을 제공했습니다. Qwen3.5-Omni Flash도 비슷한 범위에 있을 것으로 예상되지만, 3.5에 대한 정확한 공개 지연 시간 벤치마크는 초기 릴리스 노트에서 확인되지 않았습니다.

Light — 엣지 및 예산 사용 사례

Light는 패밀리에서 가장 작은 변형입니다. 3.5-Omni 시리즈의 파라미터 수는 작성 시점에 완전히 확인되지 않았지만, 이전 버전의 30B-A3B 모델은 적절한 양자화로 소비자 하드웨어에서 합리적으로 실행되었으며, 여기서 Light 변형도 비슷한 패턴을 따를 수 있습니다.

프로토타이핑하거나, 빡빡한 추론 비용을 가진 클라이언트를 위해 무언가를 구축하거나, 진정으로 엣지에서 실행하는 경우, Light가 시작점입니다. “나쁜 것”으로 무시하지 마세요 — 많은 크리에이터 도구 워크플로우(예: 자동화된 썸네일 자막, 업로드된 오디오에 대한 간단한 Q&A)에서는 충분하고도 남습니다.

Qwen3-Omni 대비 새로운 점

컨텍스트 윈도우: 256K 토큰, 10시간 이상의 오디오

이것이 실제 프로덕션 관점에서 제가 가장 신경 쓰는 변화입니다.

256K 토큰 컨텍스트 윈도우는 10시간 이상의 오디오 또는 오디오가 포함된 720p 비디오 약 400초로 변환됩니다. 이는 의미 있는 도약입니다. 이전 버전인 Qwen3-Omni의 thinking 모드는 65,536토큰과 32,768토큰 추론 체인으로 최대치가 제한되었습니다 — 유용하지만 장편 미디어에는 한계가 있었습니다.

팟캐스트 분석, 장편 인터뷰 처리, 연장된 고객 통화 요약 — 이 컨텍스트 윈도우는 단일 API 호출에서 실제로 가능한 것을 바꿉니다.

언어 커버리지: 인식 113개, 생성 36개

음성 인식은 이전 버전의 19개에서 113개 언어 및 방언으로 확장되었습니다. 음성 생성은 10개 언어에서 36개로 확장되었습니다.

솔직한 참고 사항: Alibaba는 OpenAI가 동일한 커버리지를 집계하는 방식과 비교해 이 수치를 부풀리는 방식으로 지역 방언을 집계합니다. 그것을 감안하더라도, 도약은 실제입니다. 동남아시아 시장, 아랍어 콘텐츠, 또는 다국어 음성 워크플로우를 위해 구축 중이라면, 이는 상당한 실질적 개선입니다.

Hybrid-Attention MoE를 사용하는 Thinker-Talker

Thinker-Talker 아키텍처는 Qwen2.5-Omni에서 처음 도입되었습니다. 3.5-Omni에서의 중요한 업그레이드는 두 컴포넌트 모두 Hybrid-Attention MoE(Mixture-of-Experts) 설계를 사용한다는 것으로, 더 광범위한 Qwen3.5 패밀리의 희소 아키텍처로의 전환과 일치합니다.

개발자에게 이것이 중요한 이유: Thinker-Talker 분리는 외부 시스템 — RAG 파이프라인, 안전 필터, 함수 호출 — 이 음성 합성이 시작되기 전에 두 단계 사이에 개입할 수 있도록 합니다. 이것은 단순한 아키텍처적 세부 사항이 아닙니다. 모델이 추론하는 것과 소리 내어 말하는 것 사이에 자신의 로직을 삽입할 수 있다는 의미입니다. 프로덕션 음성 에이전트에서, 이는 진정으로 유용합니다.

의미론적 인터럽션과 음성 복제

음성 봇을 배포해 본 사람이라면 그 고통을 압니다: 사용자가 기침하거나, 개가 짖거나, 누군가가 “음”이라고 말하면, 봇이 인터럽트 받는다고 생각하고 응답 도중에 멈춥니다.

Qwen3.5-Omni는 의미론적 인터럽션을 추가하여, 사용자가 진정으로 끼어들고 싶어하는 것과 주변 배경 소음이나 지나가는 말을 구별하려고 시도합니다. 이것은 변경 로그에서는 사소하게 들리지만 실제로는 사람들이 답답하게 느끼는 음성 어시스턴트와 계속 사용하는 어시스턴트의 차이를 만드는 기능 중 하나입니다.

음성 복제와 속도, 볼륨, 감정에 대한 실시간 음성 제어도 새롭습니다. 팀은 음성 출력 안정성과 자연스러움을 개선하는 ARIA라는 기능을 언급합니다 — ARIA가 내부적으로 무엇을 하는지에 대한 기술적 세부 사항은 초기 릴리스에서 자세히 설명되지 않았습니다.

Qwen3.5-Omni 접근 방법

DashScope API (Alibaba Cloud)

주요 프로덕션 접근 경로는 Alibaba Cloud의 DashScope API를 통해서입니다. OpenAI 호환 인터페이스를 사용하므로, 이미 OpenAI SDK를 통해 GPT-4o나 Claude를 사용하고 있다면 마이그레이션이 간단합니다.

DashScope는 여러 리전을 지원합니다: 싱가포르(국제), 미국 버지니아, 중국 베이징, 홍콩, 각각 다른 엔드포인트 URL을 가집니다. 중국 외 대부분의 팀에서는 싱가포르 국제 엔드포인트가 기본값입니다: dashscope-intl.aliyuncs.com.

세 가지 변형의 모델 ID는 qwen3.5-omni-plus, qwen3.5-omni-flash, qwen3.5-omni-light 패턴을 따릅니다. API 구조는 응답에서 텍스트, 오디오, 또는 둘 다 원하는지 지정하기 위한 modalities 파라미터와 함께 표준 /v1/chat/completions 형식을 따릅니다.

vLLM 자체 호스팅 옵션

Qwen 팀은 Qwen-Omni 시리즈 모델의 추론 및 배포를 위해 vLLM을 강력히 권장하며, HuggingFace Transformers와 vLLM 모두를 위한 완전한 런타임 환경이 포함된 Docker 이미지를 제공합니다.

주의할 점은 MoE 모델에서 HuggingFace Transformers를 사용한 추론 속도가 매우 느릴 수 있다는 것이므로, 대규모 또는 저지연 요구 사항의 경우 vLLM 또는 DashScope API가 권장 경로입니다.

자체 호스팅하는 경우, 특히 vLLM 0.13.0을 계획하세요 — 그것이 공식 설정 문서에서 참조된 버전입니다. MoE 아키텍처는 동일한 품질 수준의 비교 가능한 밀집 모델보다 메모리 요구 사항이 낮다는 것을 의미하지만, 프로덕션 배포를 시작하기 전에 GPU 할당을 검증하고 싶을 것입니다.

오픈 웨이트 상태: 확인된 것 vs. 보류 중인 것

여기서 확인된 것을 넘어 추측하지 않으려고 합니다.

Qwen3-Omni(이전 버전)는 GitHub와 HuggingFace에서 Apache 2.0 하에 릴리스되었습니다. Qwen3.5-Omni의 가중치가 동일한 Apache 2.0 라이선싱 경로를 따를지는 초기 발표에서 확인되지 않았습니다. 이전 버전의 가중치는 공개적으로 사용 가능합니다 — 3.5 가중치도 따를 수 있지만, 3월 30일 릴리스 날짜 기준으로 해당 확인은 보류 중입니다.

공식 GitHub 리포지토리나 HuggingFace 모델 카드에서 라이선스를 확인하기 전까지는 오픈 웨이트 배포 계획을 세우지 마세요. 업데이트는 QwenLM GitHub에서 확인하세요.

이번 릴리스에 주목해야 할 사람

음성 에이전트 및 실시간 대화 빌더

음성 우선 애플리케이션 — 고객 서비스 봇, AI 컴패니언, 인터랙티브 음성 도구 — 을 구축하고 있다면, Qwen3.5-Omni는 진지하게 평가할 가치가 있습니다. 의미론적 인터럽션만으로도 모든 음성 에이전트 개발자가 겪어온 알려진 문제점을 해결합니다. 네이티브 함수 호출과 웹 검색을 추가하면, 이것은 연구 릴리스가 아닌 실제 인프라처럼 보이기 시작합니다.

Qwen 블로그 포스트는 옴니 모델에 직접 내장된 네이티브 웹 검색 및 함수 호출 지원을 강조하며, 이를 연구 결과물이 아닌 음성 우선 애플리케이션을 위한 인프라로 포지셔닝합니다.

오디오-비주얼 프로덕션 및 자막 워크플로우

크리에이터 도구, 영상 프로덕션 자동화, 대규모 자막 작업 — 이것은 현재 오픈 웨이트 멀티모달 공간에서 가장 매력적인 릴리스입니다. 10시간 이상의 오디오 컨텍스트는 전체 길이의 콘텐츠를 한 번의 호출로 처리할 수 있음을 의미합니다. 확장된 언어 커버리지는 다국어 콘텐츠가 더 이상 특수 케이스가 아님을 의미합니다.

단일 추론 호출에서 오디오 이해와 비디오 프레임 분석의 조합은 자동화된 하이라이트 추출, B-롤 자막, 화면 텍스트 상관관계를 포함한 음성 오버 전사와 같은 것들에 진정으로 유용합니다.

이미 프로덕션에서 Qwen3-Omni를 실행하는 팀

Qwen3-Omni가 이미 스택에 있다면, Qwen3.5-Omni로 업그레이드하는 것은 간단합니다. API 구조가 일관됩니다. 컨텍스트 윈도우 업그레이드만으로도 기존 워크로드에서 테스트할 가치가 있습니다 — 특히 65K 토큰 한계에 부딪혔던 것들은 더욱 그렇습니다.

다루지 않는 것

이미지 생성 모델이 아님

“옴니모달”이 일부 혼란을 야기하기 때문에 명확히 말할 가치가 있습니다: Qwen3.5-Omni는 텍스트와 음성을 생성합니다. 이미지나 비디오는 생성하지 않습니다. 입력으로서 이미지와 비디오를 이해합니다 — 이는 완전히 다른 기능입니다. 이미지 생성이 필요하다면, Qwen의 별도 VL 및 이미지 생성 모델 라인, 또는 DashScope 카탈로그의 qwen-image-plus 모델을 보세요.

MoE에서의 추론 속도: vLLM vs. HuggingFace Transformers

이것은 Qwen3-Omni에서 많은 사람들이 실수했고 3.5-Omni에서도 실수할 것입니다. Qwen3-Omni가 MoE 아키텍처를 사용하기 때문에, MoE 모델에서 HuggingFace Transformers를 사용한 추론 속도가 매우 느릴 수 있습니다. 대규모 호출 또는 저지연 요구 사항의 경우, vLLM 또는 DashScope API가 강력히 권장됩니다.

HuggingFace Transformers에서 벤치마크하고 모델이 느리다고 결론 짓지 마세요. 프로덕션 실행 가능성에 대한 견해를 형성하기 전에 vLLM 또는 관리형 API에서 테스트하세요.

FAQ

Qwen3.5-Omni는 오픈 소스인가요, 아니면 오픈 웨이트인가요?

2026년 3월 30일 릴리스 기준으로, Qwen3.5-Omni의 오픈 웨이트 상태는 공식적으로 확인되지 않았습니다. 이전 버전인 Qwen3-Omni는 Apache 2.0 오픈 웨이트로 HuggingFace에서 사용 가능했습니다. 3.5-Omni도 비슷한 릴리스 일정을 예상하지만, 의존하기 전에 공식 QwenLM GitHub에서 확인하세요.

Qwen3.5-Omni-Plus를 자체 호스팅할 수 있나요?

DashScope API가 오늘 확인된 프로덕션 경로입니다. vLLM을 통한 자체 호스팅은 Qwen3-Omni에서 지원되며, 가중치가 릴리스되면 3.5-Omni에서도 지원될 가능성이 높습니다. Plus 변형의 MoE 아키텍처는 활성 파라미터 요구 사항이 비교 가능한 밀집 모델보다 낮다는 것을 의미하지만, 전체 Plus 변형을 위해서는 멀티 GPU 설정이 필요합니다.

함수 호출과 웹 검색을 네이티브로 지원하나요?

예. Qwen 블로그 포스트는 옴니 모델에 내장된 네이티브 웹 검색 및 함수 호출 지원을 명시적으로 강조합니다. 함수 호출은 DashScope API를 통해 표준 OpenAI 도구 형식을 따릅니다. 이것은 의미 있는 차별화 요소입니다 — 별도의 오케스트레이션 레이어를 통해 라우팅하지 않고도 라이브 데이터를 쿼리하는 음성 에이전트를 구축할 수 있습니다.

이전 포스트: