Qwen3.5-Omni vs GPT-4o vs Gemini 2.5 Pro: Сравнение мультимодальных моделей

Всем привет! Это Дора, у которой, как обычно, на столе лежала спецификация проекта голосового агента с одним нерешённым вопросом: на какое семейство моделей строить. GPT-4o был очевидным выбором для всех. Gemini 2.5 Pro постоянно всплывал из-за своего потолка контекста. А потом в конце марта вышел Qwen3.5-Omni с заявлениями, которые заставили меня остановиться на прокрутке: 113 языков распознавания, открытые веса, многоуровневое ценообразование, контекст 256K. Игнорировать это было невозможно.

Поэтому я погрузилась в детали. Это не сводная таблица бенчмарков, а руководство по принятию решений: что на самом деле предлагает каждая модель, где цифры оправдываются, и какая подходит именно для вашего проекта.

Как позиционируют себя эти модели

Qwen3.5-Omni: открытые веса, самостоятельный хостинг, многоязычный голос

Qwen3.5-Omni — это нативная омнимодальная модель Alibaba: текст, аудио, изображение и видео на входе, текст или речь в реальном времени на выходе — всё в одном вызове инференса. Поставляется в трёх вариантах: Plus (30B-A3B MoE), Flash (лёгкий MoE, меньшая задержка) и Light (небольшая плотная модель с открытыми весами на HuggingFace). Архитектура — Thinker-Talker: компонент рассуждений и компонент синтеза речи работают как разделённая система, что позволяет транслировать речь ещё до завершения полного ответа.

Ключевое отличие — самостоятельный хостинг. Plus и Flash доступны через API DashScope; вариант Light имеет открытые веса. Если приоритет — хранение данных в собственной инфраструктуре, файнтюнинг или контроль затрат в масштабе, Qwen3.5-Omni — единственный вариант в этом сравнении с реалистичным путём к самостоятельному хостингу. Модель поддерживает совместимый с OpenAI формат API через DashScope, что снижает сложность интеграции для команд, уже использующих OpenAI SDK.

GPT-4o: закрытый API, тесно интегрированный инструментарий, экосистема OpenAI

GPT-4o — это флагманская мультимодальная модель OpenAI, доступная через стандартный API Chat Completions и Realtime API для голосовых нагрузок. Самостоятельный хостинг исключён — модель полностью закрыта. То, что GPT-4o теряет в гибкости, компенсируется зрелостью экосистемы: вызов функций, Assistants API, файнтюнинг, Batch API, интерпретатор кода, поиск по файлам и инструментарий для разработчиков, который большинство команд уже интегрировали. Если ваш стек уже работает на OpenAI, стоимость переключения вполне реальна.

Аудио в GPT-4o обрабатывается двумя разными способами: Chat Completions API (gpt-4o-audio-preview, асинхронный) и Realtime API (gpt-realtime, низкая задержка, WebSocket). Это разные эндпоинты с принципиально разным ценообразованием — это важно при принятии архитектурных решений по голосовым агентам.

Gemini 2.5 Pro: инфраструктура Google, нативная мультимодальность, интеграция с Vertex AI

Gemini 2.5 Pro — флагман среднего уровня от Google, разработанный для задач, требующих сильного рассуждения и мультимодального понимания. Поддерживает окно контекста в 1 миллион токенов — наибольшее в этом сравнении, превышающее остальные в четыре раза — и доступен через Gemini Developer API и Vertex AI. Путь через Vertex — корпоративный: он интегрируется с Google Cloud IAM, элементами управления хранением данных и инструментами Workspace, но также предполагает специфичное ценообразование и привязку к поставщику.

Аудиовход поддерживается; нативный вывод речи в реальном времени осуществляется через Live API (низкая задержка для диалога), а не через стандартный эндпоинт completions. Для команд, уже работающих в Google Cloud, история интеграции убедительна. Для команд вне Google Cloud Vertex добавляет сложности при подключении, которых позволяет избежать Gemini Developer API.

Сводная таблица сравнения

Параметр	Qwen3.5-Omni (Plus)	GPT-4o	Gemini 2.5 Pro
Окно контекста	256K токенов	128K токенов	1M токенов
Лимит аудиовхода	~10 часов непрерывно	Ограничен 128K контекстом	~11 часов при 1M контексте
Языки вывода речи	36	~6 (предустановленные голоса)	Ограничено (Live API)
Языки распознавания речи	113	На основе Whisper (~100)	Сильная многоязычность
Самостоятельный хостинг	✅ Реалистично (Light — открытые веса; Plus/Flash — через API)	❌ Недоступно	❌ Недоступно
Открытые веса	✅ Вариант Light (HuggingFace)	❌	❌
Модель ценообразования	Многоуровневая по числу входных токенов в запросе	Фиксированная за токен (аудио отдельно)	Многоуровневая по длине контекста (>200K — повышенный тариф)
Цена текстового входа (за 1M)	Зависит от тарифа; см. DashScope	$2.50	$1.25 (≤200K токенов)
Цена аудиовхода	Модально-специфичная; см. DashScope	~$100/1M токенов (Realtime: $32/1M)	~$1.00/1M (тариф Gemini 2.5 Flash для аудио)
Совместимость API	Совместимо с OpenAI (DashScope)	Нативный OpenAI	Совместимо с OpenAI (частично)
Бесплатная квота	1M токенов (международный, 90 дней)	Нет (только пробные кредиты)	Щедрый бесплатный уровень (Google AI Studio)
Vertex / корпоративная интеграция	Только Alibaba Cloud	Azure OpenAI / корпоративные соглашения	Нативный Google Cloud / Vertex AI
Статус выпуска	30 марта 2026 (очень новая)	GA, стабильная в продакшене	GA, стабильная в продакшене

Данные о ценах: текст GPT-4o со страницы цен OpenAI; Gemini 2.5 Pro из цен Google AI Developer; Qwen3.5-Omni из цен DashScope. Тарифы на аудио приблизительные — всегда проверяйте перед финансовым моделированием.

Аудио и голосовые бенчмарки: что это значит для разработчиков

Где лидирует Qwen3.5-Omni-Plus

Alibaba утверждает, что Qwen3.5-Omni-Plus достиг результатов SOTA на 215 аудио- и аудиовизуальных подзадачах, превзойдя Gemini 3.1 Pro в бенчмарках общего понимания аудио, рассуждения, распознавания и перевода. В многоязычном ASR переход с 19 языков (предыдущее поколение) до 113 — ключевая метрика, наиболее значимая для команд, работающих не только на английском.

В понимании аудио-видео — задачах вроде резюмирования видео с фоновым звуком, ответов на вопросы о записанном совещании или субтитрировании аудиоконтента — модель имеет архитектурные преимущества: Thinker обрабатывает все модальности вместе нативно, а не направляет через отдельные стеки энкодеров.

Где сохраняют преимущества GPT-4o и Gemini

Преимущество GPT-4o — не в сырых аудиобенчмарках, а в зрелости экосистемы. Вызов функций в Realtime API, Assistants API для постоянных тредов, файнтюнинг на ваших данных и инструментарий разработчика, прошедший боевое тестирование в масштабе. Если вы строите голосового агента, которому нужно вызывать внешние API, управлять состоянием диалога или интегрироваться с существующими рабочими процессами на основе OpenAI, зрелость инструментария GPT-4o — подлинное преимущество.

Преимущества Gemini 2.5 Pro — это контекст и интеграция с Google. Для задач анализа аудио или видео, где нужно обработать часы контента в одном запросе без разбивки на части, 1M токенов — практический потолок в этом сравнении. Для команд в Google Cloud, использующих пайплайны Vertex AI, интеграция нативна и привычна с точки зрения контрактов.

Оговорки по бенчмаркам: количество SOTA против пробелов в реальном развёртывании

Цифра «215 результатов SOTA» заслуживает критического анализа перед принятием решения. Несколько вещей, которые нужно знать о том, как она формируется:

Во-первых, количество SOTA агрегируется по множеству подзадач — отдельным языковым парам, специфическим аудиожанрам, узким категориям бенчмарков. Модель может заявлять сотни SOTA и при этом проигрывать именно на том бенчмарке, который важен для вашего случая (ваш язык, ваш словарь домена, ваше качество аудио).

Во-вторых, Qwen3.5-Omni вышел в конце марта этого года. На момент написания независимые сторонние оценки отсутствуют. Сравнительные цифры, приведённые Alibaba, получены командой, выпустившей модель, на бенчмарках, выбранных самой командой. Это не обвинение в недобросовестности — стандартная практика при выпуске моделей — но именно такую эпистемическую позицию стоит занять до появления нейтральных оценок.

В-третьих, производительность на бенчмарках ≠ производительность в продакшене. Охват акцентов, редкая лексика, обработка фонового шума, специфическая терминология домена и реальное качество аудио — всё это влияет на качество ASR в продакшене так, как кураторские бенчмарки не отражают. Тестируйте на собственных аудиозаписях перед принятием решения.

Многоязычная голосовая поддержка

113 языков распознавания vs. подход GPT-4o на основе Whisper

Распознавание аудио в GPT-4o унаследовано от архитектуры Whisper, поддерживающей около 100 языков с разным качеством по всему диапазону. Модель хорошо работает с высокоресурсными языками (английский, испанский, французский, мандаринский) и деградирует на низкоресурсных языках и диалектах. OpenAI не публикует разбивку точности по языкам, что делает сложным предварительную проверку качества для менее распространённых языков.

Заявление Qwen3.5-Omni о 113 языках аналогично по охвату, но включает явное покрытие диалектов в рамках этого числа — различие, важное для охвата языков Южной Азии, Юго-Восточной Азии и Африки, где «язык» и «его диалекты» могут иметь принципиально разное качество ASR. Как и в случае с любыми заявлениями о числе языков, тестируйте на реальных образцах от ваших целевых носителей. У Alibaba есть история щедрого подсчёта диалектов; делайте поправку на это.

36 языков синтеза речи: для каких рынков это практично?

Синтез речи на 36 языках ставит Qwen3.5-Omni впереди текущих предустановленных голосовых опций GPT-4o (преимущественно английский с небольшим набором дополнительных языков) для не-английского TTS. Для продуктовых команд, создающих голосовых агентов для Латинской Америки, Юго-Восточной Азии или многоязычных европейских рынков, 36 языков вывода — значимое преимущество, если нужные языки покрыты и качество достаточно для вашего случая.

Live API Gemini 2.5 Pro также поддерживает многоязычный вывод речи, но документация по охвату языков менее конкретна. Проверьте охват целевых языков специально перед тем, как принять решение в пользу Qwen или Gemini для многоязычного TTS.

Семантическое прерывание и клонирование голоса: дифференциатор или базовый уровень?

Qwen3.5-Omni вводит семантическое прерывание — модель пытается различить, реально ли пользователь вмешивается в разговор или это фоновый шум. Это реальное улучшение UX для развёртывания голосовых агентов в шумных средах, но это всё в большей мере ожидаемый базовый уровень, а не дифференциатор. Протестируйте, работает ли это надёжно в вашей акустической среде, прежде чем рассматривать как решающий фактор.

Клонирование голоса (загрузите образец голоса, модель отвечает этим голосом) доступно в Plus и Flash через API. Realtime API GPT-4o поддерживает кастомный голос через файнтюнинг, но не предоставляет прямого клонирования голоса тем же способом. Это реальное функциональное различие, если согласованность голосовой персоны на протяжении длинных разговоров — требование продукта.

Доступ к API и соответствие инфраструктуре

DashScope vs. OpenAI API vs. Google Vertex: сложность интеграции

Для команд, уже использующих SDK OpenAI, указать на совместимый с OpenAI эндпоинт DashScope несложно:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3-omni-flash",  # или qwen3-omni-plus
    messages=[{"role": "user", "content": "Ваше сообщение здесь"}]
)

Для мультимодальных входов (аудио, видео) вам понадобится нативный мультимодальный эндпоинт DashScope, имеющий несколько иную структуру запросов. Совместимость с OpenAI применяется преимущественно к путям завершения текста. Проверьте, какие эндпоинты поддерживают какие модальности, прежде чем строить аудиопайплайн.

Интеграция с Google Vertex AI — наиболее сложная из трёх: требует настройки проекта Google Cloud, конфигурации IAM и использования Vertex SDK или Gemini Developer API, у которых разные потоки аутентификации и незначительно разное поведение. Результат — корпоративные элементы управления доступом, документация по соответствию требованиям и структура SLA от Google.

Самостоятельный хостинг: только Qwen3.5-Omni предлагает реалистичный путь

Это наиболее структурно значимое различие в данном сравнении. GPT-4o и Gemini 2.5 Pro — модели с закрытыми весами: самостоятельный хостинг исключён полностью. Если ваш случай требует, чтобы данные никогда не покидали вашу инфраструктуру (определённые контексты здравоохранения, финансов или обороны), или если вам нужен файнтюнинг на проприетарных аудиоданных на уровне модели, только Qwen3.5-Omni даёт вам такой путь.

Вариант Light — открытые веса на HuggingFace. Plus и Flash по состоянию на 31 марта 2026 года — только через API; открытые веса для этих вариантов не подтверждены как публично выпущенные на момент написания. Если вам нужно качество уровня Plus с полным самостоятельным хостингом, проверьте текущий статус открытых весов перед тем, как планировать свою архитектуру.

Для требований к самостоятельному хостингу документация по развёртыванию vLLM и официальный GitHub команды Qwen — авторитетные источники по настройке.

Хранение данных и география эндпоинтов

Для команд вне Китая международный эндпоинт DashScope (Сингапур) используется по умолчанию. Эндпоинт US Virginia доступен, но не имеет бесплатной квоты и, на момент написания, требует отдельного подтверждения поддержки мультимодальных (аудио/видео) запросов для моделей Omni перед направлением производственного трафика туда.

Сравнение структур ценообразования

Тарифные уровни входных токенов vs. фиксированная цена за вызов

Базовая архитектура ценообразования отличается у всех трёх провайдеров:

Qwen3.5-Omni (DashScope): Многоуровневое ценообразование на основе числа входных токенов текущего запроса. Пересечение порога тарифного уровня в рамках одного запроса повышает ставку входных токенов для всего запроса, а не только для токенов выше порога. Это означает, что аудиоклип на 35K токенов и текстовый запрос на 5K токенов тарифицируются по разным ставкам за токен, даже если ваш ежемесячный объём одинаков. Короткие запросы дёшевы; аудиозапросы с длинным контекстом дорожают быстрее, чем предполагает модель с фиксированными тарифами.

GPT-4o: Фиксированное ценообразование за токен для текста ($2.50 вход / $10.00 выход за 1M токенов). Аудио — отдельная строка: путь через Chat Completions Audio стоит ~$100/1M аудиовходных токенов; Realtime API (gpt-realtime) — $32/1M аудиовхода и $64/1M аудиовыхода после недавнего снижения цен на 20%. Текстовые токены в Realtime API — $4.00 вход / $16.00 выход — значительно выше, чем стандартные тарифы Chat Completions.

Gemini 2.5 Pro: Многоуровневое по длине контекста, но проще по структуре: стандартный тариф ($1.25 вход / $10.00 выход за 1M токенов) для промптов ≤200K токенов; двойной тариф для промптов >200K токенов. Аудиовход тарифицируется с надбавкой относительно текста — примерно в 3 раза для уровня Flash; проверьте тарифы на аудио для Pro в документации по ценам Google AI Developer. Пакетный режим снижает тарифы на 50% для асинхронных нагрузок.

Стоимость в масштабе: высокообъёмные голосовые и аудионагрузки

Для конкретного сравнения рассмотрим нагрузку 100 000 минут аудиовхода в месяц — примерно масштаб средней операции транскрипции или голосового агента:

При ~427 токенах/минуту аудио (на основе опубликованной математики контекста Qwen) — это ~42.7M аудиовходных токенов/месяц
GPT-4o Realtime при $32/1M аудиовхода: ~$1 366/месяц только за аудиовход, без учёта стоимости текстового входа/выхода
Gemini 2.5 Pro audio (при ~$1.00/1M для короткого уровня Flash, Pro может отличаться): ~$427/месяц в рамках стандартного диапазона контекста — проверьте тарифы Pro на аудио
Qwen3.5-Omni: стоимость целиком зависит от того, как аудио разбивается на запросы; каждый запрос, пересекающий порог тарифного уровня, платит повышенный тариф для всего запроса. Невозможно дать фиксированную цифру без знания распределения размеров ваших запросов

При очень высоком объёме с предсказуемыми размерами запросов самостоятельный хостинг варианта Flash или Light Qwen3.5-Omni становится оправданным расчётом. Один H100 80GB, запускающий Flash в FP8, может обеспечивать продакшн-инференс по почасовой стоимости GPU, которая при определённом ежемесячном объёме обходит затраты на API.

Система принятия решений: когда что использовать

Выбирайте Qwen3.5-Omni если:

Требуется самостоятельный хостинг — хранение данных, файнтюнинг или независимость от поставщика не подлежат компромиссу. Это единственная модель в этом сравнении с путём к открытым весам.
Многоязычный голос — основной сценарий использования — 113 языков ASR и 36 языков TTS в сочетании с нативной омнимодальной архитектурой — значимое преимущество для продуктов, ориентированных не только на английский. Проверьте, что ваши конкретные языки работают с приемлемым качеством.
Важна чувствительность к стоимости в масштабе — при высоком объёме самостоятельно размещённый вариант Flash или Light может значительно снизить затраты по сравнению с API. При чистом использовании API тщательно смоделируйте многоуровневое ценообразование для вашего распределения размеров запросов, прежде чем считать его дешевле.
Нужно клонирование голоса или согласованность голосовой персоны в длинных разговорах — в настоящее время это более доступно в Qwen3.5-Omni, чем в GPT-4o или Gemini.

Выбирайте GPT-4o если:

Экосистема OpenAI уже в вашем стеке — Assistants API, файнтюнинг, вызов функций, Batch API. Стоимость переключения реальна; зрелость инструментария подлинна.
Зрелость инструментария важнее стоимости — для голосовых агентов, требующих сложного вызова инструментов, управления многоходовым состоянием или интеграции с существующими рабочими процессами OpenAI, производственный послужной список GPT-4o — сильнейший из трёх.
Вы строите преимущественно на английском или высокоресурсных западноевропейских языках — качество ASR GPT-4o для этих языков хорошо проверено и надёжно в продакшене.

Выбирайте Gemini 2.5 Pro если:

Google Cloud — ваша инфраструктура — нативная интеграция с Vertex AI, GCP IAM и корпоративные соглашения — реальные преимущества, если вы уже в экосистеме Google.
Нужен контекст 1M+ токенов — для обработки очень длинных записей, анализа многочасового контента или ведения очень длинной истории разговора без разбивки на части потолок контекста Gemini — явный победитель в этом сравнении.
Важна интеграция с Google Workspace — для корпоративных случаев, включающих Docs, Drive, Meet или другие продукты Workspace, путь интеграции Gemini-Workspace более естественен, чем альтернативы.

Ограничения, которые нужно знать перед принятием решения

Qwen3.5-Omni: накладные расходы инференса MoE, нестабильность API на ранних этапах

Архитектура MoE варианта Plus означает менее предсказуемую производительность инференса по сравнению с плотной моделью эквивалентного качества. При переменном параллелизме накладные расходы маршрутизации могут вызывать всплески задержки. vLLM значительно снижает это по сравнению с HuggingFace Transformers для самостоятельно размещённых развёртываний, но не устраняет полностью — задержка маршрутизации MoE присуща архитектуре.

Стабильность API — открытый вопрос. Лимиты запросов на данный момент публично не задокументированы. Поведение эндпоинта под нагрузкой, обязательства по SLA и гарантии закрепления версий — всё это неизвестные на данном этапе. Для продакшн-развёртываний с требованиями к доступности предусмотрите запасной вариант.

GPT-4o: нет самостоятельного хостинга, непрозрачность ценообразования в масштабе

Самостоятельный хостинг исключён полностью. Если это жёсткое требование, GPT-4o не является кандидатом.

Ценообразование аудио через Realtime API ($32/1M входа, $64/1M выхода) недёшево в масштабе, а структура выставления счетов — отдельные ставки для текстовых и аудиотокенов в одном разговоре — может привести к неожиданным счетам, если разработчики предполагают применение стандартных тарифов Chat Completions. Управление контекстным окном на основе сессий в Realtime API также добавляет ценовую сложность для длинных разговоров.

История ценообразования OpenAI на модели и функции включала как снижения, так и реструктуризации. Для модели стоимости, которая должна действовать 12+ месяцев, ценообразование OpenAI менее предсказуемо, чем у Google.

Gemini 2.5 Pro: привязка к Vertex, доступность в Китае

Интеграция с Vertex AI — реальное преимущество для команд Google Cloud и реальное ограничение для всех остальных. Корпоративные функции, элементы управления хранением данных и инструменты соответствия требованиям нативны для Vertex; Gemini Developer API имеет меньше корпоративных элементов управления. Команды, начавшие с Developer API и мигрирующие на Vertex для продакшена, столкнутся с другим SDK, другой аутентификацией и другим выставлением счетов.

Модели Gemini недостаточно надёжно доступны с материкового Китая. Если ваша команда или ваши пользователи работают в Китае, путь через DashScope — практический вариант.

Также стоит отметить порог ценообразования Gemini 2.5 Pro в 200K токенов: если ваш средний запрос стабильно превышает 200K токенов, вы платите двойной рекламируемый входной тариф. Чтобы контекст в 1M был экономически выгодным, нужны нагрузки, реально извлекающие пользу из полного окна без слишком частого попадания в двойной тарифный уровень.

Часто задаваемые вопросы

Лучше ли Qwen3.5-Omni, чем GPT-4o, для многоязычных голосовых приложений?

На бумаге и по бенчмаркам Qwen3.5-Omni-Plus лидирует по числу языков (113 ASR, 36 TTS) и по бенчмаркам понимания аудио-видео. На практике ответ зависит от ваших конкретных языков, качества аудио и вашего домена. Qwen3.5-Omni вышел 30 марта 2026 года — независимые производственные оценки пока отсутствуют. Тестируйте на реальных образцах от ваших целевых пользователей перед принятием решения.

Можно ли запустить Qwen3.5-Omni в продакшене без использования DashScope?

Вариант Light доступен как открытые веса на HuggingFace, подходит для самостоятельного размещения в продакшене на соответствующем оборудовании. Plus и Flash в настоящее время доступны только через API DashScope. Открытые веса для Plus/Flash не подтверждены по состоянию на 31 марта 2026 года — проверьте текущий статус перед планированием самостоятельно размещённого развёртывания Plus.

Поддерживает ли Qwen3.5-Omni формат OpenAI API?

Да. DashScope предоставляет совместимый с OpenAI эндпоинт по адресу https://dashscope-intl.aliyuncs.com/compatible-mode/v1, поддерживающий формат Chat Completions API. Это работает для текстовых и текст+изображение входов. Для аудио- и видеовходов проверьте, обрабатывается ли нужная вам конкретная модальность через совместимый эндпоинт или требует нативного мультимодального эндпоинта DashScope — слой совместимости покрывает не все модальности одинаково.

Предыдущие публикации: