Qwen3.5-Omni vs GPT-4o vs Gemini 2.5 Pro：オムニモデル比較

みなさん、こんにちは！Doraです。いつものように、どのモデルファミリーで構築するかを決める必要があるボイスエージェントのプロジェクト仕様書が手元にありました。GPT-4oは誰もが当然のように想定するデフォルトの選択肢でした。Gemini 2.5 Proはそのコンテキスト上限の大きさから常に話題に上っていました。そしてQwen3.5-Omniが3月末に登場し、スクロールの手を思わず止めてしまうような主張を掲げていました — 113の認識言語、オープンウェイトの選択肢、階層型価格設定、256Kコンテキスト。これを無視するわけにはいきませんでした。

そこで徹底的に調べました。これはベンチマークのまとめではなく、意思決定ガイドです：各モデルが実際に何を提供しているか、どこで数字が裏付けられているか、そしてあなたの具体的な構築ニーズにどれが最適かを解説します。

各モデルのポジショニング

Qwen3.5-Omni：オープンウェイト優先、自己ホスティング可能、多言語音声

Qwen3.5-OmniはAlibabaのネイティブオムニモーダルモデルです — テキスト、音声、画像、動画を入力として受け付け、テキストまたはリアルタイム音声を出力し、すべてを1回の推論呼び出しで処理します。Plus（30B-A3B MoE）、Flash（軽量MoE、低レイテンシ）、Light（小型密モデル、HuggingFaceでオープンウェイト）の3バリアントがあります。アーキテクチャはThinker-Talker方式で、推論コンポーネントと音声合成コンポーネントが分割システムとして動作し、完全な応答が完了する前にストリーミング音声出力を可能にしています。

最も明確な差別化要因は自己ホスティングです。PlusとFlashはDashScope API経由でアクセス可能で、Lightバリアントはオープンウェイトです。データ所在地、ファインチューニング、またはスケールでのコストが主な懸念事項である場合、Qwen3.5-Omniは現在この比較の中で現実的な自己ホスティング手段を持つ唯一の選択肢です。このモデルはDashScope経由のOpenAI互換APIフォーマットをサポートしており、すでにOpenAI SDKを使用しているチームの統合の手間を削減します。

GPT-4o：クローズドAPI、緊密に統合されたツールチェーン、OpenAIエコシステム

GPT-4oはOpenAIの旗艦マルチモーダルモデルで、標準のChat Completions APIと音声対音声のワークロード向けRealtime APIを通じて利用可能です。自己ホスティングの手段はなく、完全にクローズドです。GPT-4oは柔軟性を犠牲にしている分、エコシステムの成熟度を提供しています：ファンクションコール、Assistants API、ファインチューニング、Batch API、コードインタープリター、ファイル検索、そしてほとんどのチームがすでに統合している開発者ツールチェーンです。スタックがすでにOpenAIで動いている場合、移行コストは現実的な問題です。

GPT-4oの音声は2つの異なる経路で処理されます：Chat Completions API（gpt-4o-audio-preview、非同期）とRealtime API（gpt-realtime、低レイテンシWebSocket）。これらは異なるエンドポイントであり、価格設定も意味のある差があります。これはボイスエージェントのアーキテクチャ設計に影響します。

Gemini 2.5 Pro：Googleインフラ、マルチモーダルネイティブ、Vertex AI統合

Gemini 2.5 ProはGoogleの中上位旗艦モデルで、強力な推論とマルチモーダル理解を必要とするタスク向けに設計されています。100万トークンのコンテキストウィンドウをサポートし — この比較で4倍の差をつけて最大 — Gemini Developer APIとVertex AIの両方から利用可能です。Vertexの経路はエンタープライズルートです：Google Cloud IAM、データ所在地管理、Workspaceツールと統合されますが、Vertex固有の価格設定とロックインの考慮事項も伴います。

音声入力はサポートされており、ネイティブのリアルタイム音声出力は標準の補完エンドポイントではなくLive API（低レイテンシ会話型）を通じて処理されます。すでにGoogle Cloudを使用しているチームにとっては統合の話が魅力的です。Google Cloudを使用していないチームにとっては、Vertexは追加のオンボーディング摩擦をもたらしますが、Gemini Developer APIではそれを避けられます。

コア比較表

次元	Qwen3.5-Omni（Plus）	GPT-4o	Gemini 2.5 Pro
コンテキストウィンドウ	256Kトークン	128Kトークン	1Mトークン
音声入力制限	〜10時間連続	128Kコンテキストによる制限	1Mコンテキストで〜11時間
音声出力言語	36	〜6（プリセット音声）	限定的（Live API）
音声認識言語	113	Whisperベース（〜100）	強力な多言語対応
自己ホスティング	✅ 実現可能（Lightオープンウェイト；Plus/FlashはAPI経由）	❌ 利用不可	❌ 利用不可
オープンウェイト	✅ Lightバリアント（HuggingFace）	❌	❌
価格モデル	リクエストごとの入力トークン数による階層型	フラットなトークン単価（音声は別途価格）	コンテキスト長による階層型（200K超は高単価）
テキスト入力価格（1Mあたり）	階層により変動；DashScope参照	$2.50	$1.25（≤200Kトークン）
音声入力価格	モダリティ別；DashScope参照	〜$100/1Mトークン（Realtime：$32/1M）	〜$1.00/1M（Gemini 2.5 Flash音声レート）
API互換性	OpenAI互換（DashScope）	OpenAIネイティブ	OpenAI互換（部分的）
無料クォータ	1Mトークン（国際版、90日間）	なし（トライアルクレジットのみ）	充実した無料枠（Google AI Studio）
Vertex/エンタープライズ統合	Alibaba Cloudのみ	Azure OpenAI/エンタープライズ契約	ネイティブGoogle Cloud/Vertex AI
リリース状況	2026年3月30日（非常に新しい）	GA、本番安定	GA、本番安定

価格データ：GPT-4oテキストはOpenAI価格ページより；Gemini 2.5 ProはGoogle AI Developer価格より；Qwen3.5-OmniはDashScope価格より。音声レートは概算です — コスト計算前に必ず確認してください。

音声・音声ベンチマーク：ビルダーにとっての意味

Qwen3.5-Omni-Plusがリードする分野

AlibabaはQwen3.5-Omni-Plusが215の音声・音声ビジュアルサブタスクでSOTA結果を達成し、一般的な音声理解、推論、認識、翻訳ベンチマークでGemini 3.1 Proを上回ったと主張しています。多言語ASRに関しては特に、前世代の19言語から113言語への飛躍が、英語以外を主要とするチームにとって最も重要な指標です。

音声ビデオ理解 — 環境音を含む動画のサマリー、録画されたミーティングへの質疑応答、音声コンテンツのキャプション生成といったタスク — において、このモデルは専用のアーキテクチャ上の優位性を持っています：Thinkerが個別のエンコーダスタックを経由せず、すべてのモダリティをネイティブに並行して処理します。

GPT-4oとGeminiが優位を維持する分野

GPT-4oの優位性は音声ベンチマークの数値ではなく、エコシステム統合にあります。Realtime APIでのファンクションコール、永続的スレッドのためのAssistants API、ドメインデータでのファインチューニング、そしてスケールで本番環境にてテストされてきた開発者ツールチェーン。外部APIを呼び出し、会話状態を管理し、既存のOpenAIベースのワークフローと統合する必要があるボイスエージェントを構築している場合、GPT-4oのツール成熟度は真の差別化要因です。

Gemini 2.5 Proの優位性はコンテキストとGoogle統合にあります。チャンキングなしに1回のリクエストで数時間分のコンテンツを処理したい音声やビデオ分析タスクにおいて、100万トークンはこの比較の実用的な上限です。Vertex AIパイプラインを運用しているGoogle Cloudチームにとっては、統合がネイティブかつ契約上も馴染みのあるものです。

ベンチマークの注意点：SOTA数 vs. 実際の展開ギャップ

「215のSOTA結果」という数字は、意思決定の根拠にする前に精査する必要があります。この数字がどのように構成されているかについていくつか知っておくべき点があります。

第一に、SOTA数は多くのサブタスク — 個別の言語ペア、特定の音声ジャンル、狭いベンチマークカテゴリ — にわたって集計されています。モデルは何百ものSOTAを主張しながら、あなたのユースケース（あなたの言語、あなたのドメイン語彙、あなたの音質プロフィール）にとって最も重要な特定のベンチマークで負けている可能性があります。

第二に、Qwen3.5-Omniは今年3月末にリリースされたばかりです。執筆時点では独立したサードパーティの評価はまだ存在しません。Alibabaが引用した比較数値は、リリースチームがチーム自ら選択したベンチマークを使用して生成したものです。これは不正直の告発ではなく — モデルリリースの標準的な慣行です — しかし中立的な評価が現れるまで保持すべき適切な認識論的立場です。

第三に、ベンチマーク性能≠本番性能。アクセントのカバレッジ、希少語彙、背景ノイズ処理、ドメイン固有の用語、実際の音声品質はすべて、厳選されたベンチマークでは捉えられない方法で本番のASR品質に影響します。コミットする前に自分の音声サンプルでテストしてください。

多言語音声サポート

113認識言語 vs. GPT-4oのWhisperベースアプローチ

GPT-4oの音声認識はWhisperアーキテクチャを継承しており、品質にばらつきはあるものの約100言語をサポートしています。モデルは高リソース言語（英語、スペイン語、フランス語、中国語）で強い性能を発揮し、低リソース言語や方言では品質が低下します。OpenAIは言語別の精度の詳細を公開していないため、一般的でない言語の品質を事前に検証するのが困難です。

Qwen3.5-Omniの113言語という主張は範囲的には似ていますが、その数の中に方言の明示的なカバレッジが含まれています — これは、「言語」と「その方言」が意味のある異なるASR品質を持つ可能性がある、南アジア、東南アジア、アフリカの言語カバレッジにとって重要な区別です。言語数の主張と同様に、ターゲットとする話者の実際のサンプルでテストしてください。Alibabaは方言を寛大にカウントする傾向があります；それを念頭において評価してください。

36音声出力言語：どの市場に実用的か？

36言語の音声出力により、Qwen3.5-Omniは非英語TTSにおいてGPT-4oの現在のプリセット音声オプション（主に英語と少数の追加言語）を上回っています。ラテンアメリカ、東南アジア、または多言語ヨーロッパ市場をターゲットとするボイスエージェントを構築している製品チームにとって、対象言語がカバーされており品質がユースケースに十分であれば、36出力言語は意味のある能力差です。

Gemini 2.5 ProのLive APIも多言語音声出力をサポートしていますが、言語カバレッジのドキュメントはあまり明確ではありません。多言語TTSのユースケースにQwenまたはGeminiのどちらかをコミットする前に、ターゲット言語のカバレッジを具体的に確認してください。

セマンティック割り込みと音声クローニング：差別化要因かそれとも標準機能か？

Qwen3.5-Omniはセマンティック割り込みを導入しています — モデルがユーザーの真の割り込みと環境の背景ノイズを区別しようとします。これはノイズの多い環境でのボイスエージェント展開にとって真のUX改善ですが、差別化要因というよりはますます期待される基準となっています。意思決定の要因として扱う前に、あなたの音響環境で確実に機能するかどうかをテストしてください。

音声クローニング（音声サンプルをアップロードし、モデルがその音声で応答する）はAPI経由でPlusとFlashで利用可能です。GPT-4oのRealtime APIはファインチューニング経由でカスタム音声をサポートしていますが、同様の方法でダイレクトな音声クローニングは公開していません。長い会話全体での音声ペルソナの一貫性が製品要件である場合、これは真の能力差です。

APIアクセスとインフラ適合性

DashScope vs. OpenAI API vs. Google Vertex：統合の複雑さ

すでにOpenAIのSDKを使用しているチームにとって、DashScopeのOpenAI互換エンドポイントへの切り替えは簡単です：

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3-omni-flash",  # または qwen3-omni-plus
    messages=[{"role": "user", "content": "Your message here"}]
)

マルチモーダル入力（音声、動画）の場合は、DashScopeのネイティブマルチモーダルエンドポイントを使用します。これはリクエスト構造が若干異なります。OpenAI互換性は主にテキスト補完の経路に適用されます。音声パイプラインを構築する前に、どのエンドポイントがどのモダリティをサポートしているかを確認してください。

Google Vertex AI統合は3つの中で最も複雑です — Google Cloudプロジェクトのセットアップ、IAM設定が必要で、Vertex SDKまたはGemini Developer APIを使用しますが、これらは認証フローが異なり動作もわずかに異なります。その見返りはエンタープライズグレードのアクセス制御、コンプライアンスドキュメント、GoogleのSLAフレームワークです。

自己ホスティング：Qwen3.5-Omniだけが現実的な手段を提供

これはこの比較で最も構造的に重要な差異です。GPT-4oとGemini 2.5 Proはクローズドウェイトモデルです — 自己ホスティングの手段は一切ありません。ユースケースがデータを自社インフラから外に出さないことを要求する場合（特定の医療、金融、防衛のコンテキスト）、またはモデルレベルで独自の音声データでファインチューニングする必要がある場合、Qwen3.5-Omniだけが手段を提供します。

LightバリアントはHuggingFaceでオープンウェイトとして公開されています。PlusとFlashは2026年3月31日時点ではAPIのみです — これらのバリアントのオープンウェイトは執筆時点で公開リリースが確認されていません。Plusレベルの品質と完全な自己ホスティングが要件の場合、アーキテクチャを計画する前に現在のオープンウェイトの状況を確認してください。

自己ホスティング要件については、vLLMデプロイメントドキュメントとQwenチームの公式GitHubが設定の権威ある参照資料です。

データ所在地とエンドポイント地理

中国以外のチームには、DashScopeのInternational（シンガポール）エンドポイントがデフォルトです。米国バージニアエンドポイントも利用可能ですが無料クォータがなく、執筆時点では本番トラフィックをルーティングする前に特にOmniモデルのマルチモーダル（音声/動画）サポートを確認してください。

価格構造の比較

入力トークン階層 vs. フラットな通話単価

3つのプロバイダー全てで根本的な価格設計が異なります：

Qwen3.5-Omni（DashScope）： 現在のリクエストの入力トークン数に基づく階層型価格設定。1回のリクエスト内で階層の境界を超えると、境界を超えたトークンだけでなく、そのリクエスト全体の入力レートが上がります。つまり、35Kトークンの音声クリップと5Kトークンのテキストクエリは、月間ボリュームが同じであっても異なるトークン単価で請求されます。短いリクエストは安価ですが、長コンテキストの音声リクエストはフラットレートモデルが示すよりも速くコストが上昇します。

GPT-4o： テキストに対するフラットなトークン単価（入力$2.50/出力$10.00 per 1Mトークン）。音声は完全に別項目です：Chat Completions音声パスは〜$100/1M音声入力トークン；Realtime API（gpt-realtime）は最近の20%値下げ後、音声入力$32/1M、音声出力$64/1Mで運用されています。Realtime APIのテキストトークンは入力$4.00/出力$16.00 per 1Mで — 標準のChat Completionsレートよりも大幅に高額です。

Gemini 2.5 Pro： コンテキスト長による階層型ですが、構造はシンプルです：≤200Kトークンのプロンプトには標準レート（入力$1.25/出力$10.00 per 1Mトークン）；>200Kトークンのプロンプトには2倍のレート。音声入力はテキストに対してプレミアム価格です — Flashティアでは約3倍；Proの音声レートはGoogle AI Developer価格ドキュメントで確認してください。バッチモードは非同期ワークロードのレートを50%削減します。

スケールでのコスト：大量の音声/音声ワークロード

具体的な比較として、月間100,000分の音声入力のワークロードを考えてみましょう — 中規模のトランスクリプションまたはボイスエージェント運用に相当します：

Qwenが公開しているコンテキスト計算に基づく〜427トークン/分の音声で、月間〜4,270万音声入力トークン
GPT-4o Realtimeは音声入力$32/1Mで：音声入力だけで〜$1,366/月、テキスト入力/出力コストは含まず
Gemini 2.5 Pro音声（標準コンテキスト範囲内でFlashティア〜$1.00/1M、Proは異なる場合あり）：〜$427/月 — Pro音声レートを確認してください
Qwen3.5-Omni：コストは音声がリクエストにどのようにまとめられるかに完全に依存；階層の境界を超えるリクエストはリクエスト全体に高いレートが適用されます。リクエストサイズの分布がわからなければフラットな数字を出せません

非常に高いボリュームで予測可能なリクエストサイズの場合、Qwen3.5-OmniのFlashまたはLightバリアントの自己ホスティングを計算する価値が出てきます。FP8でFlashを実行する1台のH100 80GBは、特定の月間ボリュームを超えるとAPIコストを下回るGPU時間単価で本番推論を処理できます。

意思決定フレームワーク：いつどれを使うか

Qwen3.5-Omniを選ぶ場合：

自己ホスティングが必要 — データ所在地、ファインチューニング、またはベンダー独立性が交渉の余地なく必要。これはこの比較でオープンウェイトの手段を持つ唯一のモデルです。
多言語音声が主要なユースケース — 113 ASR言語と36 TTS言語は、ネイティブオムニモーダルアーキテクチャと組み合わせて、英語以外を主要とする製品にとって意味のある能力上の優位性です。特定の言語が許容できる品質で動作するか確認してください。
スケールでのコスト感度が重要 — 大量の場合、自己ホスティングのFlashまたはLightバリアントはAPIの価格を大幅に下回ることができます。純粋なAPI使用では、より安いと仮定する前にリクエストサイズの分布に対して階層型価格設定を慎重にモデル化してください。
長い会話全体での音声クローニングまたは音声ペルソナの一貫性が必要 — これは現在GPT-4oやGeminiよりQwen3.5-Omniでよりアクセスしやすい機能です。

GPT-4oを選ぶ場合：

OpenAIエコシステムがすでにスタックに含まれている — Assistants API、ファインチューニング、ファンクションコール、Batch API。移行コストは現実的；ツールの成熟度は本物です。
ツールの成熟度がコストよりも重要 — 複雑なツールコール、マルチターンの状態管理、または既存のOpenAIワークフローとの統合を必要とするボイスエージェントの場合、GPT-4oの本番実績は3つの中で最も強力です。
主に英語または高リソースの西ヨーロッパ言語で構築している — これらの言語に対するGPT-4oのASR品質は本番で十分にテストされており信頼できます。

Gemini 2.5 Proを選ぶ場合：

Google Cloudがインフラである — ネイティブなVertex AI統合、GCP IAM、エンタープライズ契約はすでにGoogleエコシステムにいる場合に真のメリットです。
1M+トークンのコンテキストが必要 — 非常に長い録音の処理、数時間のコンテンツ分析、またはチャンキングなしの非常に長い会話履歴の維持において、Geminiのコンテキスト上限はこの比較で明確な勝者です。
Google Workspace統合が重要 — Docs、Drive、Meet、その他のWorkspace製品を含むエンタープライズユースケースの場合、Gemini-Workspace統合パスは代替よりも自然です。

コミットする前に知っておくべき制限事項

Qwen3.5-Omni：MoE推論のオーバーヘッド、初期段階のAPI安定性

PlusバリアントのMoEアーキテクチャは、同等の品質の密モデルと比べて推論性能の予測可能性が低いことを意味します。可変の並行処理下では、ルーティングオーバーヘッドがレイテンシのスパイクを引き起こす可能性があります。vLLMは自己ホスティング展開においてHuggingFace Transformersよりもこれを大幅に軽減しますが、完全に解消するわけではありません — MoEルーティングのレイテンシはアーキテクチャに内在するものです。

API安定性は未解決の問題です。レート制限は現時点では公開されていません。負荷下でのエンドポイントの動作、SLAのコミットメント、バージョン固定の保証はすべてこの段階では不明です。アップタイム要件がある本番展開の場合は、フォールバックを計画してください。

GPT-4o：自己ホスティング不可、スケールでの価格不透明性

自己ホスティングは一切不可。これが必須要件の場合、GPT-4oは候補外です。

Realtime API経由の音声価格（入力$32/1M、出力$64/1M）はスケールでは安くなく、同じ会話内のテキストと音声トークンに異なるレートが適用される請求構造は、開発者が標準のChat Completionsレートが適用されると思い込んでいると予想外の請求につながる可能性があります。Realtime APIのセッションベースのコンテキストウィンドウ管理も長い会話のコスト複雑性を増します。

OpenAIのモデルと機能の価格改定の歴史には値下げと再構成の両方が含まれています。12ヶ月以上維持する必要があるコストモデルについては、OpenAIの価格はGoogleよりも予測可能性が低いです。

Gemini 2.5 Pro：Vertexのロックイン、中国からのアクセス可能性

Vertex AI統合はGoogle Cloudチームにとって真のメリットであり、それ以外のすべての人にとっては真の制約です。エンタープライズ機能、データ所在地管理、コンプライアンスツールはVertexネイティブです；Gemini Developer APIにはエンタープライズ管理が少ない。Developer APIで始めて本番向けにVertexに移行するチームは、異なるSDK、異なる認証、異なる請求に直面します。

Geminiモデルは中国本土から確実にアクセスできるわけではありません。チームまたはユーザーが中国で運用している場合、DashScopeの経路が実用的な選択肢です。

Gemini 2.5 Proの200Kトークン価格閾値も注目に値します：平均リクエストが常に200Kトークンを超える場合、広告されている入力レートの2倍を支払っていることになります。1Mコンテキストがコスト効率的になるには、2倍の階層に頻繁に当たることなく、実際にフルウィンドウのメリットを得られるワークロードが必要です。

FAQ

多言語音声アプリケーションにおいてQwen3.5-OmniはGPT-4oより優れていますか？

数値とベンチマーク上では、Qwen3.5-Omni-Plusは言語数（113 ASR、36 TTS）と音声ビデオ理解ベンチマークでリードしています。実際には、回答はあなたの特定の言語、音声品質、ドメインによって異なります。Qwen3.5-Omniは2026年3月30日にリリースされました — 独立した本番評価はまだ存在しません。決定する前にターゲットユーザーの実際のサンプルでテストしてください。

DashScopeを使用せずにQwen3.5-Omniを本番環境で実行できますか？

LightバリアントはHuggingFaceでオープンウェイトとして利用可能で、適切なハードウェアでの自己ホスティング本番展開に適しています。PlusとFlashは現在DashScope経由のAPIのみです。Plus/Flashのオープンウェイトは2026年3月31日時点では確認されていません — 自己ホスティングのPlus展開を計画する前に現在の状況を確認してください。

Qwen3.5-OmniはOpenAI APIフォーマットをサポートしていますか？

はい。DashScopeはhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1でOpenAI互換エンドポイントを公開しており、Chat Completions APIフォーマットをサポートしています。これはテキストおよびテキスト+ビジョン入力で機能します。音声および動画入力の場合は、必要な特定のモダリティが互換エンドポイントを通じて処理されるか、DashScopeのネイティブマルチモーダルエンドポイントが必要かを確認してください — 互換レイヤーはすべてのモダリティを均等にカバーしているわけではありません。

過去の記事：