Precios, límites y opciones de implementación de la API Qwen3.5-Omni (2026)

¡Hola a todos! Soy Dora — quiero compartir con ustedes la sorpresa que me llevé cuando vi el lanzamiento de Qwen3.5-Omni a finales de marzo. En ese momento, mi primer instinto no fue “vaya, qué modelo tan chulo”, sino: ¿cuánto me va a costar realmente por llamada?

Y es que tengo experiencia con este tipo de sorpresas. Construí un pipeline sobre una nueva API multimodal brillante, no leí con suficiente cuidado la documentación de facturación, y luego vi cómo mi factura mensual se cuadruplicaba en cuanto el procesamiento de audio alcanzó los rangos de contexto más largos. Así que esta vez, me senté con los documentos de precios de DashScope y la referencia oficial de la API antes de escribir una sola línea de código de integración.

Si eres un líder técnico o responsable de infraestructura evaluando si construir sobre Qwen3.5-Omni o alojarlo por tu cuenta, esto cubre lo que realmente importa para tu modelo de costes — incluyendo una estructura de precios que es genuinamente poco intuitiva hasta que te sientas a analizarla con calma.

Cómo Se Factura Qwen3.5-Omni

Precios por Niveles de DashScope: Modelo Basado en Tokens de Entrada

Lo más importante que debes entender desde el principio: DashScope no cobra una tarifa plana por token. Para Qwen3.5-Omni (y varios otros modelos Qwen, incluido qwen3.5-plus), los precios son por niveles según el número de tokens de entrada en la solicitud actual. No son tokens de sesión acumulados — el tamaño de entrada de la solicitud individual determina en qué tramo de precios caes.

Esto no es obvio y tiene implicaciones reales. Una solicitud corta de 5K tokens y una solicitud al máximo de 240K tokens no solo tienen precios diferentes en proporción — caen en tramos de tarifa completamente distintos. La estructura premia mantener las solicitudes cortas, lo cual puede entrar en conflicto directo con la razón por la que elegirías un modelo de contexto de 256K en primer lugar.

La página oficial de precios de DashScope muestra esta estructura por niveles aplicada a las familias de modelos Qwen-Plus y relacionados. Los precios específicos por token de audio Omni y por fotograma de vídeo están documentados por separado en la sección de facturación multimodal.

Plus vs. Flash vs. Light: Diferencia de Coste-Rendimiento

Qwen3.5-Omni se presenta en tres variantes con posicionamiento distinto:

Plus es el modelo estrella de referencia — es el que superó a Gemini 3.1 Pro en comprensión de audio. Flash intercambia parte de esa capacidad por menor latencia y presumiblemente menor coste por llamada. Light es el nivel de pesos abiertos: gratuito para ejecutar, pero la infraestructura corre por tu cuenta.

Para los usuarios de la API, la decisión práctica es Plus vs. Flash. Si tu caso de uso es transcripción de alta precisión de grabaciones largas o clonación de voz para un producto de cara al cliente, Plus es donde quieres estar. Si estás haciendo conversación en tiempo real con presupuestos de latencia más ajustados, vale la pena probar Flash primero.

Cuota Gratuita: Qué Incluye y Cuándo Se Agota

Las nuevas cuentas de DashScope en la región Internacional (endpoint de Singapur) reciben una cuota gratuita de 1 millón de tokens de entrada y 1 millón de tokens de salida, válida durante 90 días tras activar Model Studio. El modo de implementación Global (US Virginia) no tiene cuota gratuita — esto importa si tu equipo está en EE. UU. y quiere hacer pruebas desde el endpoint más cercano.

Agotarás esa cuota gratuita más rápido de lo esperado si estás ejecutando pruebas con mucho audio. Un único archivo de audio de 10 horas alcanza el techo de contexto de 256K, lo que por sí solo consume aproximadamente 256K de tu asignación de 1M tokens de entrada en una sola solicitud.

Economía de la Ventana de Contexto

256K Tokens en la Práctica: Horas de Audio, Segundos de Vídeo y Qué Cuesta Realmente

El número oficial es que 256K tokens maneja “más de 10 horas de audio continuo” o “aproximadamente 400 segundos de vídeo 720p con audio”. Traduzquemos eso en intuición de costes.

El audio se tokeniza a aproximadamente 25.600 tokens por hora (256K ÷ 10 horas). Eso equivale a aproximadamente 427 tokens por minuto de audio. Para vídeo a 1 FPS de muestreo, 400 segundos de contenido 720p llena el contexto completo.

Poniéndolo en relación con los tramos de precios por niveles, considera dos escenarios:

Solicitud corta (p. ej., clip de reunión de 5 minutos ≈ ~2.100 tokens): Cae en el tramo de precios más bajo. Barato por llamada.

Solicitud larga (p. ej., podcast de 3 horas ≈ ~77.000 tokens): Entra en el tramo intermedio. La tarifa por token sube, así que tu coste por minuto de audio es significativamente mayor que en el escenario de solicitud corta — no porque estés usando más tokens, sino porque el tramo es diferente.

Solicitud casi al máximo (p. ej., archivo de audio de 8 horas ≈ ~205.000 tokens): Estás en el tramo más alto. Una jornada laboral completa de audio al precio del tramo superior costará considerablemente más que 40 clips equivalentes de 12 minutos procesados individualmente. Esta es la decisión arquitectónica que impone el modelo por niveles: agrupar entradas largas vs. dividirlas en fragmentos.

Para quienes procesan audio en gran volumen, dividir en fragmentos puede ser en realidad más barato que explotar la ventana de contexto completa — lo cual es irónico, ya que el contexto amplio es en parte el argumento de venta.

Cuándo la Entrada de Audio de Contexto Largo Se Vuelve Cara

Hay un punto de equilibrio en algún lugar entre contexto corto y largo donde dividir en fragmentos gana en coste. Los números exactos dependen de tus precios de modalidad específicos (las tarifas de tokens de audio difieren de las de tokens de texto en la facturación de DashScope), así que recomendaría ejecutar una calculadora rápida antes de comprometerte con una arquitectura: pasa tu distribución esperada de longitud de audio por la fórmula de precios por niveles y por un enfoque basado en fragmentos.

Límites de Velocidad y Rendimiento

Lo Que Se Sabe Sobre Límites de QPS / Concurrencia

Los detalles de los límites de velocidad para Qwen3.5-Omni no están documentados públicamente con el mismo detalle que los modelos solo de texto. El patrón general de DashScope para usuarios de la API son límites de QPS (consultas por segundo) y de concurrencia aplicados a nivel de cuenta, ajustables mediante solicitudes de aumento de cuota para cuentas empresariales. Si necesitas números confirmados para la planificación de capacidad, presenta una solicitud de aumento de cuota al soporte de DashScope — responden con los límites reales para tu nivel de cuenta.

Endpoints Internacionales de DashScope vs. China Continental

Hay tres regiones principales de endpoints para los equipos fuera de China:

Internacional (Singapur): https://dashscope-intl.aliyuncs.com/compatible-mode/v1 — datos y endpoint en Singapur, inferencia programada globalmente (excluyendo China continental). Este es el predeterminado para la mayoría de los desarrolladores internacionales. Se aplica la cuota gratuita.
Global (US Virginia / Alemania Frankfurt): https://dashscope-us.aliyuncs.com/compatible-mode/v1 — datos y endpoint en la región de US Virginia, cómputo programado globalmente. Sin cuota gratuita. Mejor para requisitos de latencia en EE. UU.
China Continental (Pekín): https://dashscope.aliyuncs.com/compatible-mode/v1 — restringido a equipos que operan dentro de China. Precio por token significativamente más bajo.

Disponibilidad en la Región de EE. UU. (Endpoint de Virginia)

El endpoint de EE. UU. (Virginia) está disponible para los modelos de texto Qwen. A día de hoy, confirma directamente a través de la referencia de la API de DashScope si la inferencia multimodal de Qwen3.5-Omni se enruta a través del endpoint de EE. UU. o vuelve a Singapur. El patrón general del endpoint multimodal es:

POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

Para equipos con requisitos de residencia de datos, aclara con Alibaba Cloud si el contenido de audio/vídeo procesado a través del endpoint de EE. UU. se almacena fuera de EE. UU. en algún momento del pipeline de inferencia.

Auto-Alojamiento con vLLM

Por Qué el Equipo de Qwen Recomienda vLLM Sobre HuggingFace Transformers para MoE

Qwen3.5-Omni-Plus utiliza una arquitectura de Mezcla de Expertos con Atención Híbrida (MoE). El equipo de Qwen recomienda explícitamente vLLM sobre HuggingFace Transformers para cualquier carga de trabajo en producción — y la razón es específica del MoE: el enrutamiento de expertos en los modelos MoE provoca patrones de acceso a memoria irregulares que HuggingFace Transformers no optimiza bien. PagedAttention de vLLM y la programación consciente de MoE manejan esto significativamente mejor, traduciéndose en diferencias reales de rendimiento bajo carga. Para invocación a gran escala o requisitos de baja latencia, la orientación oficial es vLLM o la API de DashScope directamente — no Transformers sin procesar.

Requisitos de Infraestructura para Plus (Clase 30B-A3B)

La variante Plus (30B parámetros totales, 3B activos por token) necesita al menos 40 GB de VRAM para una inferencia cómoda en BF16. En la práctica:

A100 80GB única: Viable para Plus en cuantización FP8 o INT8. BF16 a contexto completo es ajustado.
H100 80GB única: Cómodo en BF16 con margen para caché KV en contextos más cortos.
RTX 4090 (24 GB): No es suficiente para Plus. Funciona para las variantes Flash o Light con cuantización.

Para los modelos Omni específicamente, también debes tener en cuenta la memoria del códec de audio del componente Talker — no son solo los pesos del modelo de lenguaje. Se ha reportado que la RTX 4090D de 48 GB de VRAM ejecuta el Qwen3-Omni 30B-A3B en cuantización AWQ de 4 bits, pero con un margen mínimo de caché KV y un rendimiento de generación de alrededor de 64 tokens/s.

Disponibilidad de Imagen Docker y Configuración

El equipo de Qwen proporciona una imagen Docker que incluye el entorno de ejecución completo tanto para HuggingFace Transformers como para vLLM. Úsala — configurar manualmente el fork de vLLM específico para Omni (rama qwen3_omni) es tedioso. Instalación con la pila oficial:

# Clonar el fork de vLLM específico para Omni
git clone -b qwen3_omni https://github.com/wangxiongts/vllm.git
cd vllm

# Instalar dependencias
pip install -r requirements/build.txt
pip install -r requirements/cuda.txt
VLLM_USE_PRECOMPILED=1 pip install -e . -v --no-build-isolation

# Instalar paquetes requeridos
pip install transformers==4.57.3 accelerate
pip install qwen-omni-utils -U
pip install -U flash-attn --no-build-isolation

Luego servir:

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 32768

El límite max-model-len 32768 es práctico para configuraciones de una sola GPU — empujar hacia un contexto de 256K en una sola tarjeta de 80 GB requiere cuantización agresiva y limita significativamente el tamaño del lote. Según la propia documentación de implementación de vLLM, PagedAttention maneja eficientemente la memoria de caché KV, pero los modelos audiovisuales con salidas de Talker de múltiples libros de códigos tienen mayor presión de caché KV que los equivalentes solo de texto.

API de DashScope vs. Auto-Alojamiento: Marco de Decisión

Cuándo Tiene Sentido DashScope

Necesitas estar en producción en días, no en semanas
Tu volumen mensual de tokens está por debajo de ~50M tokens (la economía unitaria de la API sigue siendo favorable)
No tienes infraestructura de GPU y no quieres construirla
La función de clonación de voz importa — es exclusiva de Plus y Flash a través de la API; los pesos abiertos de Light no la exponen
Necesitas enrutamiento de datos regional en Singapur o EE. UU. con garantías contractuales

Cuándo Tiene Sentido el Auto-Alojamiento

El volumen mensual supera consistentemente los 50-100M tokens y el coste por token es significativo
Requisitos de residencia de datos que los endpoints regionales de DashScope no satisfacen
Control de latencia para objetivos de respuesta por debajo de 200 ms que dependen de la co-ubicación
Estás ejecutando cargas de trabajo de nivel Flash o Light donde el hardware encaja en tu flota existente
Ajuste fino personalizado o modificaciones del modelo (solo posible con pesos abiertos — nivel Light)

El punto de inflexión práctico: a alto volumen, ejecutar Plus en una H100 dedicada a un coste en la nube de ~2-3 $/hora resulta más barato que la tarifa por llamada de DashScope. El cálculo cambia según la utilización — una GPU inactiva el 40% del tiempo cambia significativamente los números.

Consideraciones de Costes Ocultos

Sobrecarga de Preprocesamiento de Audio/Vídeo

El audio enviado a Qwen3.5-Omni debe estar en el formato correcto antes de llegar a la API. La biblioteca qwen-omni-utils maneja el remuestreo, la normalización de canales y la codificación en fragmentos — pero ese preprocesamiento añade latencia y cómputo de tu lado. Para vídeo, el muestreo a 1 FPS a 720p es la tasa de referencia documentada, pero la extracción real de fotogramas de formatos de vídeo arbitrarios requiere FFmpeg o equivalente. Incluye esto en tu presupuesto de latencia por llamada.

Salida de Voz en Streaming y Costes por Llamada

La arquitectura Thinker-Talker transmite la salida de voz en tiempo real — los primeros bytes de audio llegan antes de que se genere la respuesta completa, lo que hace que la conversación de voz en vivo se sienta natural. Pero el streaming añade una sobrecarga por llamada: las conexiones permanecen abiertas más tiempo, y el códec de audio (renderizador Code2Wav) genera secuencias de múltiples libros de códigos que contribuyen al recuento de tokens de salida. Si usas el modo de salida de voz, tu recuento efectivo de tokens de salida es mayor que en el modo solo de texto para la misma respuesta subyacente. Comprueba si DashScope factura los tokens de salida de voz a la misma tarifa que los tokens de salida de texto — la documentación de facturación distingue las modalidades en la sección de precios multimodal.

Preguntas Frecuentes

¿Hay un nivel gratuito para Qwen3.5-Omni en DashScope?

Sí, para la región Internacional (endpoint de Singapur). Las nuevas cuentas reciben 1M de tokens de entrada y 1M de tokens de salida gratis, válidos 90 días tras activar Model Studio. El modo de implementación Global de EE. UU. (Virginia) no tiene cuota gratuita.

¿Cuál es el límite de velocidad de la API de DashScope?

No está documentado públicamente con un número de QPS específico para Qwen3.5-Omni a marzo de 2026. Los límites predeterminados se aplican al crear la cuenta; contacta al soporte de DashScope con tu rendimiento esperado para solicitar un aumento de cuota antes de pasar a producción.

¿Puedo ejecutar Qwen3.5-Omni-Plus en una A100 única?

En cuantización FP8 o INT8, sí — una A100 80 GB puede ejecutar Plus con un margen de caché KV limitado. En BF16 a contexto de 256K, no. Espera tener que limitar max-model-len a algo como 32K–64K en una sola GPU de 80 GB para mantener un rendimiento estable.

Publicaciones anteriores: