Qwen3.5-Omni API 가격, 한도 및 배포 옵션 (2026)

안녕하세요! 저는 Dora입니다 — 3월 말에 Qwen3.5-Omni 출시를 보고 받은 충격을 여러분과 나누고 싶습니다. 그 순간 제 첫 번째 반응은 “와, 멋진 모델이다”가 아니었습니다. 바로 이것이었죠: 이게 실제로 호출당 얼마나 들까?

왜냐하면 — 저는 이미 한 번 된통 당한 적이 있거든요. 새로 나온 멋진 멀티모달 API로 파이프라인을 구축했는데, 청구 문서를 꼼꼼히 읽지 않아서, 오디오 처리가 더 긴 컨텍스트 범위에 도달하자 월 청구서가 네 배로 불어나는 걸 지켜봐야 했습니다. 그래서 이번에는 통합 코드 한 줄 작성하기 전에 DashScope 가격 문서와 공식 API 레퍼런스를 꼼꼼히 살펴봤습니다.

Qwen3.5-Omni 위에 빌드할지 아니면 자체 호스팅할지를 평가 중인 엔지니어링 리드나 인프라 의사결정자라면, 이 글은 비용 모델에 실질적으로 중요한 내용을 다룹니다 — 한참 들여다보기 전까지는 정말 직관적이지 않은 가격 구조도 포함해서요.

Qwen3.5-Omni의 가격 책정 방식

DashScope 계층형 가격: 입력 토큰 기반 모델

가장 먼저 이해해야 할 중요한 점: DashScope는 단일 토큰당 일정 요금을 부과하지 않습니다. Qwen3.5-Omni(및 qwen3.5-plus를 포함한 다른 여러 Qwen 모델)의 경우, 가격은 현재 요청의 입력 토큰 수에 따라 계층적으로 책정됩니다. 누적 세션 토큰이 아니라 — 단일 요청의 입력 크기가 어느 가격 구간에 해당하는지를 결정합니다.

이는 직관적이지 않으며 실제로 중요한 의미를 가집니다. 짧은 5K 토큰 요청과 최대치인 240K 토큰 요청은 단순히 비례적으로 다르게 가격이 책정되는 게 아니라 — 완전히 다른 요금 구간에 속합니다. 이 구조는 요청을 짧게 유지할수록 유리한데, 이는 애초에 256K 컨텍스트 모델을 선택하는 이유와 직접적으로 충돌할 수 있습니다.

공식 DashScope 가격 페이지에는 Qwen-Plus 및 관련 모델 패밀리에 적용되는 이 계층형 구조가 나와 있습니다. 오디오 토큰 및 비디오 프레임별 특정 Omni 모달리티 가격은 멀티모달 청구 섹션에 별도로 문서화되어 있습니다.

Plus vs. Flash vs. Light: 비용-성능 스펙트럼

Qwen3.5-Omni는 각기 다른 포지셔닝을 가진 세 가지 변형으로 출시됩니다:

Plus는 벤치마크 헤드라인 모델로 — 오디오 이해에서 Gemini 3.1 Pro를 이긴 바로 그 모델입니다. Flash는 그 성능 일부를 더 낮은 레이턴시와 아마도 더 낮은 호출당 비용과 맞교환합니다. Light는 오픈 웨이트 티어로, 무료로 실행할 수 있지만 인프라는 직접 운영해야 합니다.

API 사용자에게 실질적인 결정은 Plus 대 Flash입니다. 긴 녹음의 고정밀 전사 또는 고객 대면 제품의 음성 복제가 목적이라면 Plus가 적합합니다. 더 빡빡한 레이턴시 예산으로 실시간 대화를 하는 경우라면 Flash를 먼저 테스트해볼 가치가 있습니다.

무료 할당량: 포함된 내용과 소진 시점

International 리전(싱가포르 엔드포인트)의 새 DashScope 계정은 Model Studio 활성화 후 90일 동안 유효한 100만 입력 토큰과 100만 출력 토큰의 무료 할당량을 받습니다. Global 배포 모드(미국 버지니아)에는 무료 할당량이 없습니다 — 팀이 미국에 위치하고 가장 가까운 엔드포인트에서 테스트하고 싶다면 이 점이 중요합니다.

오디오 집약적인 테스트를 실행하면 그 무료 할당량이 예상보다 빠르게 소진됩니다. 단일 10시간 오디오 파일만으로도 전체 256K 컨텍스트 한도에 달하는데, 이 하나의 요청만으로도 100만 입력 토큰 할당량 중 약 256K를 소비합니다.

컨텍스트 창의 경제학

실제 256K 토큰: 오디오 시간, 비디오 초수, 그리고 실제 비용

공식 수치에 따르면 256K 토큰은 “10시간 이상의 연속 오디오” 또는 “오디오가 포함된 720p 비디오 약 400초”를 처리합니다. 이를 비용 직관으로 변환해 봅시다.

오디오는 대략 시간당 25,600 토큰으로 토큰화됩니다(256K ÷ 10시간). 이는 약 오디오 1분당 427 토큰에 해당합니다. 1 FPS 샘플링 기준 비디오의 경우, 720p 콘텐츠 400초가 전체 컨텍스트를 채웁니다.

계층형 가격 구간에 대입하면 두 가지 시나리오를 생각해볼 수 있습니다:

짧은 요청(예: 5분 회의 클립 ≈ ~2,100 토큰): 최저 가격 구간에 해당합니다. 호출당 비용이 저렴합니다.

긴 요청(예: 3시간 팟캐스트 ≈ ~77,000 토큰): 중간 구간에 진입합니다. 토큰당 요금이 올라가므로, 더 많은 토큰을 사용해서가 아니라 구간 자체가 다르기 때문에 오디오 분당 비용이 짧은 요청 시나리오보다 의미 있게 높아집니다.

최대치에 가까운 요청(예: 8시간 오디오 파일 ≈ ~205,000 토큰): 최고 구간에 해당합니다. 최고 구간 가격으로 하루치 오디오를 처리하면 동일한 12분짜리 클립 40개를 개별적으로 처리하는 것보다 비용이 상당히 더 많이 듭니다. 이것이 계층형 모델이 강제하는 아키텍처적 결정입니다: 긴 입력을 배치 처리할지 vs. 청킹할지.

고용량 오디오를 처리하는 빌더에게는 청킹이 전체 컨텍스트 창을 활용하는 것보다 실제로 더 저렴할 수 있습니다 — 큰 컨텍스트가 부분적으로 세일즈 포인트인 점을 감안하면 아이러니합니다.

장문 컨텍스트 오디오 입력이 비싸지는 시점

짧은 컨텍스트와 긴 컨텍스트 사이 어딘가에 청킹이 비용 면에서 유리해지는 손익분기점이 있습니다. 정확한 수치는 특정 모달리티 가격(DashScope 청구에서 오디오 토큰 요금은 텍스트 토큰 요금과 다름)에 따라 달라지므로, 아키텍처를 확정하기 전에 간단한 계산기를 돌려보길 권합니다: 예상되는 오디오 길이 분포를 계층형 가격 공식과 청크 기반 접근 방식 모두에 적용해 보세요.

속도 제한과 처리량

QPS / 동시성 제한에 대해 알려진 내용

Qwen3.5-Omni의 속도 제한 세부 사항은 텍스트 전용 모델과 동일한 수준으로 공개 문서화되어 있지 않습니다. API 사용자에 대한 DashScope의 일반적인 패턴은 계정 수준에서 적용되는 QPS(초당 쿼리 수) 및 동시성 제한이며, 엔터프라이즈 계정의 경우 할당량 증가 요청을 통해 조정할 수 있습니다. 용량 계획을 위한 확정된 수치가 필요하다면 DashScope 지원팀에 할당량 증가 요청을 제출하세요 — 계정 티어에 맞는 실제 제한을 알려줍니다.

DashScope 인터내셔널 vs. 중국 본토 엔드포인트

비중국 팀이 알아야 할 주요 엔드포인트 리전은 세 가지입니다:

인터내셔널(싱가포르): https://dashscope-intl.aliyuncs.com/compatible-mode/v1 — 싱가포르에 데이터 및 엔드포인트, 추론은 글로벌 스케줄링(중국 본토 제외). 대부분의 인터내셔널 빌더에게 기본값입니다. 무료 할당량 적용.
글로벌(미국 버지니아 / 독일 프랑크푸르트): https://dashscope-us.aliyuncs.com/compatible-mode/v1 — 미국 버지니아 리전에 데이터 및 엔드포인트, 컴퓨팅은 글로벌 스케줄링. 무료 할당량 없음. 미국 기반 레이턴시 요구사항에 유리.
중국 본토(베이징): https://dashscope.aliyuncs.com/compatible-mode/v1 — 중국 내 운영 팀만 이용 가능. 토큰당 가격이 현저히 낮음.

미국 리전 가용성(버지니아 엔드포인트)

미국(버지니아) 엔드포인트는 Qwen 텍스트 모델에서 사용 가능합니다. 현재 시점에서, Qwen3.5-Omni 멀티모달 추론이 미국 엔드포인트를 통해 라우팅되는지 싱가포르로 폴백되는지는 DashScope API 레퍼런스를 통해 직접 확인하세요. 일반적인 멀티모달 엔드포인트 패턴은 다음과 같습니다:

POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

데이터 레지던시 요구사항이 있는 팀은 미국 엔드포인트를 통해 처리된 오디오/비디오 콘텐츠가 추론 파이프라인의 어느 시점에서 미국 외부에 저장되는지 Alibaba Cloud에 확인하세요.

vLLM을 사용한 자체 호스팅

Qwen 팀이 MoE 모델에서 HuggingFace Transformers보다 vLLM을 권장하는 이유

Qwen3.5-Omni-Plus는 하이브리드 어텐션 혼합 전문가(MoE) 아키텍처를 사용합니다. Qwen 팀은 모든 프로덕션 워크로드에서 HuggingFace Transformers보다 vLLM을 명시적으로 권장하며 — 그 이유는 MoE에 특화되어 있습니다: MoE 모델의 전문가 라우팅은 HuggingFace Transformers가 잘 최적화하지 못하는 불규칙한 메모리 접근 패턴을 야기합니다. vLLM의 PagedAttention과 MoE 인식 스케줄링은 이를 훨씬 더 잘 처리하여 부하 시 실질적인 처리량 차이로 이어집니다. 대규모 호출이나 저레이턴시 요구사항에는 공식 가이드라인상 vLLM이나 DashScope API를 직접 사용하는 것이 권장됩니다 — 순수 Transformers는 아닙니다.

Plus(30B-A3B 클래스)의 인프라 요구사항

Plus 변형(전체 파라미터 30B, 토큰당 활성 3B)은 BF16에서 안정적인 추론을 위해 최소 40GB VRAM이 필요합니다. 실제로는:

단일 A100 80GB: FP8 또는 INT8 양자화로 Plus 실행 가능. 전체 컨텍스트에서 BF16은 빠듯합니다.
단일 H100 80GB: 짧은 컨텍스트에서 KV 캐시 여유를 두고 BF16으로 편안히 실행 가능.
RTX 4090(24GB): Plus에는 부족합니다. 양자화를 적용하면 Flash 또는 Light 변형에서는 동작합니다.

Omni 모델의 경우 특히, Talker 컴포넌트의 오디오 코덱 메모리도 고려해야 합니다 — 언어 모델 가중치만이 전부가 아닙니다. 48GB VRAM RTX 4090D가 AWQ 4비트 양자화로 Qwen3-Omni 30B-A3B를 실행하는 사례가 보고되었지만, KV 캐시 여유공간이 최소화되고 생성 처리량은 약 64 토큰/초입니다.

Docker 이미지 가용성 및 설정

Qwen 팀은 HuggingFace Transformers와 vLLM 모두를 위한 전체 런타임이 번들된 Docker 이미지를 제공합니다. 이를 사용하세요 — Omni 전용 vLLM 포크(qwen3_omni 브랜치)를 수동으로 설정하는 것은 번거롭습니다. 공식 스택으로 설치:

# Omni 전용 vLLM 포크 클론
git clone -b qwen3_omni https://github.com/wangxiongts/vllm.git
cd vllm

# 의존성 설치
pip install -r requirements/build.txt
pip install -r requirements/cuda.txt
VLLM_USE_PRECOMPILED=1 pip install -e . -v --no-build-isolation

# 필수 패키지 설치
pip install transformers==4.57.3 accelerate
pip install qwen-omni-utils -U
pip install -U flash-attn --no-build-isolation

그 다음 서빙:

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 32768

max-model-len 32768 제한은 단일 GPU 설정에서 실용적입니다 — 단일 80GB 카드에서 256K 컨텍스트 방향으로 밀어붙이려면 공격적인 양자화가 필요하고 배치 크기가 크게 제한됩니다. vLLM 공식 배포 문서에 따르면 PagedAttention이 KV 캐시 메모리를 효율적으로 처리하지만, 멀티 코드북 talker 출력이 있는 오디오-비주얼 모델은 텍스트 전용 모델보다 KV 캐시 압력이 더 높습니다.

DashScope API vs. 자체 호스팅: 의사결정 프레임워크

DashScope가 합리적인 경우

몇 주가 아닌 며칠 안에 프로덕션에 투입해야 하는 경우
월간 토큰 볼륨이 약 5천만 토큰 미만인 경우(API 단위 경제성이 여전히 유리)
GPU 인프라가 없고 구축하고 싶지 않은 경우
음성 복제 기능이 중요한 경우 — API를 통해 Plus와 Flash에서만 제공되며, Light 오픈 웨이트에는 노출되지 않음
계약적 보장이 있는 싱가포르 또는 미국 리전 데이터 라우팅이 필요한 경우

자체 호스팅이 합리적인 경우

월간 볼륨이 꾸준히 5천만~1억 토큰 이상이고 토큰당 비용이 의미 있는 경우
DashScope의 리전 엔드포인트가 충족하지 못하는 데이터 레지던시 요구사항이 있는 경우
코로케이션에 의존하는 200ms 미만 응답 목표를 위한 레이턴시 제어가 필요한 경우
기존 플릿에 하드웨어가 맞는 Flash 또는 Light 티어 워크로드를 실행하는 경우
커스텀 파인튜닝 또는 모델 수정이 필요한 경우(오픈 웨이트에서만 가능 — Light 티어)

실용적인 변곡점: 고용량에서는 전용 H100을 시간당 약 $2~3의 클라우드 비용으로 Plus를 실행하는 것이 DashScope 호출당 요금보다 저렴해집니다. 수치는 활용도에 따라 달라지며 — GPU가 40% 유휴 상태라면 계산이 크게 달라집니다.

숨겨진 비용 고려사항

오디오/비디오 전처리 오버헤드

Qwen3.5-Omni로 전송되는 오디오는 API에 도달하기 전에 올바른 형식이어야 합니다. qwen-omni-utils 라이브러리가 리샘플링, 채널 정규화, 청크 인코딩을 처리하지만 — 그 전처리는 여러분 측에서 레이턴시와 컴퓨팅을 추가합니다. 비디오의 경우 720p에서 1 FPS 샘플링이 문서화된 참조 속도이지만, 임의의 비디오 형식에서 실제 프레임 추출에는 FFmpeg 또는 동급 도구가 필요합니다. 이를 호출당 레이턴시 예산에 반영하세요.

스트리밍 음성 출력과 호출당 비용

Thinker-Talker 아키텍처는 음성 출력을 실시간으로 스트리밍합니다 — 전체 응답이 생성되기 전에 첫 번째 오디오 바이트가 도착하여 라이브 음성 대화가 자연스럽게 느껴지게 합니다. 하지만 스트리밍은 호출당 오버헤드를 추가합니다: 연결이 더 오래 유지되고, 오디오 코덱(Code2Wav 렌더러)이 출력 토큰 수에 기여하는 멀티 코드북 시퀀스를 생성합니다. 음성 출력 모드를 사용하는 경우, 동일한 기본 응답에 대해 텍스트 전용 모드보다 유효 출력 토큰 수가 더 많습니다. DashScope가 음성 출력 토큰을 텍스트 출력 토큰과 동일한 요금으로 청구하는지 확인하세요 — 청구 문서의 멀티모달 가격 섹션에서 모달리티를 구분하고 있습니다.

FAQ

DashScope의 Qwen3.5-Omni에 무료 티어가 있나요?

네, 인터내셔널 리전(싱가포르 엔드포인트)에 있습니다. 새 계정은 Model Studio 활성화 후 90일 동안 유효한 100만 입력 토큰과 100만 출력 토큰을 무료로 받습니다. 미국(버지니아) 글로벌 배포 모드에는 무료 할당량이 없습니다.

DashScope API의 속도 제한은 어떻게 되나요?

2026년 3월 현재 Qwen3.5-Omni에 대한 구체적인 QPS 수치는 공개 문서화되어 있지 않습니다. 계정 생성 시 기본 제한이 적용됩니다. 프로덕션 전환 전에 예상 처리량을 DashScope 지원팀에 알리고 할당량 증가를 요청하세요.

단일 A100에서 Qwen3.5-Omni-Plus를 실행할 수 있나요?

FP8 또는 INT8 양자화에서는 가능합니다 — A100 80GB는 KV 캐시 여유공간이 제한되지만 Plus를 실행할 수 있습니다. 256K 컨텍스트에서 BF16으로는 불가능합니다. 단일 80GB GPU에서 안정적인 처리량을 유지하려면 max-model-len을 약 32K~64K 수준으로 제한해야 합니다.

이전 게시물: