← 部落格

Qwen3.5-Omni vs GPT-4o vs Gemini 2.5 Pro:全能模型深度對比

為開發者比較 Qwen3.5-Omni、GPT-4o 與 Gemini 2.5 Pro:音訊基準測試、多語言語音、API 存取、自託管選項與定價全面對比。

5 min read
Qwen3.5-Omni vs GPT-4o vs Gemini 2.5 Pro:全能模型深度對比

大家好!我是 Dora,一如往常,桌上擺著一份語音代理專案規格,等待一個決定:要基於哪個模型家族來開發。GPT-4o 是所有人預設的選擇。Gemini 2.5 Pro 因其超大上下文容量而持續被提及。而就在這時,Qwen3.5-Omni 在三月底正式發布,其宣稱的功能讓我在滑動螢幕時不禁停下腳步——113 種識別語言、開放權重路徑、分層定價、256K 上下文。我無法就此視而不見。

於是我深入研究了一番。這不是一份基準測試匯整,而是一份決策指南:每個模型真正提供什麼、數據在哪些地方站得住腳,以及哪個模型對你的特定開發需求最有意義。

這些模型的市場定位

Qwen3.5-Omni:開放權重優先、可自行部署、多語言語音

Qwen3.5-Omni 是阿里巴巴的原生全模態模型——文字、音訊、圖像和影片輸入,文字或即時語音輸出,全部在一次推論呼叫中完成。它有三個變體:Plus(30B-A3B MoE)、Flash(較輕量的 MoE,延遲更低)和 Light(較小的密集模型,在 HuggingFace 開放權重)。其架構為 Thinker-Talker——推理元件和語音合成元件以分離系統運行,這使得在完整回應生成完畢之前就能串流輸出語音。

最明顯的差異化優勢在於自行部署。Plus 和 Flash 可透過 DashScope API 存取;Light 變體則開放權重。如果資料駐留、微調或規模化成本是首要考量,Qwen3.5-Omni 目前是本次比較中唯一具有實際自行部署路徑的選項。該模型支援透過 DashScope 的 OpenAI 相容 API 格式,降低了已使用 OpenAI SDK 的團隊的整合難度。

GPT-4o:封閉 API、緊密整合的工具鏈、OpenAI 生態系統

GPT-4o 是 OpenAI 的旗艦多模態模型,可透過標準 Chat Completions API 和 Realtime API(用於語音到語音工作負載)存取。不存在自行部署路徑——它完全封閉。GPT-4o 在靈活性上的讓步,換來的是生態系統成熟度:函式呼叫、Assistants API、微調、Batch API、程式碼直譯器、檔案搜尋,以及大多數團隊已整合的開發工具鏈。如果你的技術棧已在 OpenAI 上運行,切換成本是真實存在的。

GPT-4o 中的音訊通過兩條不同路徑處理:Chat Completions API(gpt-4o-audio-preview,非同步)和 Realtime API(gpt-realtime,低延遲 WebSocket)。這些是獨立的端點,定價差異顯著,這對語音代理架構決策至關重要。

Gemini 2.5 Pro:Google 基礎設施、原生多模態、Vertex AI 整合

Gemini 2.5 Pro 是 Google 的中高階旗艦,專為需要強大推理能力和多模態理解的任務而設計。它支援 100 萬個 token 的上下文視窗——本次比較中最大的,是第二名的四倍——可透過 Gemini Developer API 和 Vertex AI 存取。Vertex 路徑是企業級路線:它與 Google Cloud IAM、資料駐留控制和 Workspace 工具整合,但也帶來了 Vertex 特有的定價和鎖定考量。

支援音訊輸入;原生即時語音輸出透過 Live API(低延遲對話式)處理,而非標準 completions 端點。對於已在 Google Cloud 上的團隊,整合方案很有吸引力。對於未使用 Google Cloud 的團隊,Vertex 增加了 Gemini Developer API 所能避免的入門難度。

核心比較表

維度Qwen3.5-Omni (Plus)GPT-4oGemini 2.5 Pro
上下文視窗256K tokens128K tokens1M tokens
音訊輸入限制約 10 小時連續受 128K 上下文限制在 1M 上下文下約 11 小時
語音輸出語言36 種約 6 種(預設聲音)有限(Live API)
語音識別語言113 種基於 Whisper(約 100 種)強大的多語言支援
自行部署✅ 可行(Light 開放權重;Plus/Flash 透過 API)❌ 不可用❌ 不可用
開放權重✅ Light 變體(HuggingFace)
定價模式按每次請求的輸入 token 數量分層按 token 固定費率(音訊單獨定價)按上下文長度分層(>200K 費率更高)
文字輸入定價(每 1M)依層級而異;請參閱 DashScope$2.50$1.25(≤200K tokens)
音訊輸入定價依模態而定;請參閱 DashScope約 $100/1M tokens(Realtime:$32/1M)約 $1.00/1M(Gemini 2.5 Flash 音訊費率)
API 相容性OpenAI 相容(DashScope)OpenAI 原生OpenAI 相容(部分)
免費配額100 萬 tokens(國際版,90 天)無(僅試用積分)豐厚免費層(Google AI Studio)
Vertex / 企業整合僅限阿里雲Azure OpenAI / 企業協議原生 Google Cloud / Vertex AI
發布狀態2026 年 3 月 30 日(非常新)GA,生產穩定GA,生產穩定

定價資料:GPT-4o 文字來自 OpenAI 定價頁面;Gemini 2.5 Pro 來自 Google AI 開發者定價;Qwen3.5-Omni 來自 DashScope 定價。音訊費率為近似值——進行成本建模前請務必驗證。

音訊和語音基準測試:對開發者意味著什麼

Qwen3.5-Omni-Plus 領先的地方

阿里巴巴聲稱 Qwen3.5-Omni-Plus 在 215 個音訊和音視覺子任務上取得了 SOTA 結果,在一般音訊理解、推理、識別和翻譯基準測試上超越了 Gemini 3.1 Pro。在多語言 ASR 方面,從 19 種語言(上一代)增加到 113 種是最引人注目的指標,對於非英語優先的團隊來說尤為重要。

在音視頻理解方面——例如總結帶有環境聲音的影片、回答錄音會議中的問題或為音訊內容加上字幕——該模型具有專用架構優勢:Thinker 原生地將所有模態一起處理,而非透過獨立的編碼器堆疊路由。

GPT-4o 和 Gemini 保持優勢的地方

GPT-4o 的優勢不在於原始音訊基準測試——而在於生態系統整合。Realtime API 中的函式呼叫、用於持久執行緒的 Assistants API、針對你的領域資料的微調,以及已在大規模生產中測試過的開發工具鏈。如果你正在構建需要呼叫外部 API、管理對話狀態或與現有基於 OpenAI 的工作流程整合的語音代理,GPT-4o 的工具成熟度是一個真正的差異化優勢。

Gemini 2.5 Pro 的優勢在於上下文Google 整合。對於需要在單次請求中處理數小時內容而無需分塊的音訊或影片分析任務,100 萬個 token 是本次比較中的實際上限。對於在 Vertex AI 管道上運行 Google Cloud 的團隊,整合是原生的,且在合約上是熟悉的。

基準測試注意事項:SOTA 數量 vs. 真實世界部署差距

「215 項 SOTA 結果」這個數字在影響你的決策之前值得仔細審視。關於這個數字的構成,有幾點需要了解:

首先,SOTA 數量是跨許多子任務的匯總——個別語言對、特定音訊類型、狹窄的基準類別。一個模型可以宣稱數百項 SOTA,同時在對你的用例最重要的特定基準測試上表現欠佳(例如你的語言、你的領域詞彙、你的音訊品質特性)。

其次,Qwen3.5-Omni 於今年三月底發布。截至撰寫本文時,獨立的第三方評估尚不存在。阿里巴巴引用的比較數據是由發布團隊使用他們自己選擇的基準測試生成的。這並不是指控他們不誠實——這是模型發布中的標準做法——但在中立評估出現之前,這是應持有的適當認知立場。

第三,基準測試性能 ≠ 生產性能。口音覆蓋範圍、罕見詞彙、背景噪音處理、特定領域術語以及真實世界的音訊品質,都會以精心策劃的基準測試無法捕捉到的方式影響生產 ASR 品質。在做出承諾之前,請用你自己的音訊樣本進行測試。

多語言語音支援

113 種識別語言 vs. GPT-4o 基於 Whisper 的方式

GPT-4o 的音訊識別繼承自 Whisper 架構,支援大約 100 種語言,但質量在不同語言間參差不齊。該模型在高資源語言(英語、西班牙語、法語、普通話)上表現強勁,在低資源語言和方言上則有所下降。OpenAI 不發布各語言的準確率明細,這使得較不常見語言的品質難以事先驗證。

Qwen3.5-Omni 宣稱的 113 種語言在範圍上類似,但在語言計數中明確涵蓋方言——這對南亞、東南亞和非洲語言覆蓋至關重要,在這些地區,「一種語言」和「其方言」可能具有截然不同的 ASR 品質。與任何語言計數聲明一樣,請用來自目標說話者的真實樣本進行測試。阿里巴巴有計算方言時較為寬鬆的歷史;請相應地進行校準。

36 種語音輸出語言:對哪些市場實際有用?

36 種語言的語音輸出使 Qwen3.5-Omni 在非英語 TTS 方面領先於 GPT-4o 目前的預設語音選項(主要是英語加上少量其他語言)。對於目標市場為拉丁美洲、東南亞或多語言歐洲市場的產品團隊,如果所需語言在覆蓋範圍內且品質能滿足你的用例需求,36 種輸出語言是一個有意義的能力差距。

Gemini 2.5 Pro 的 Live API 也支援多語言語音輸出,但語言覆蓋文件不夠明確。在將 Qwen 或 Gemini 用於多語言 TTS 用例之前,請具體驗證你目標語言的覆蓋情況。

語義中斷和聲音複製:差異化功能還是基本功能?

Qwen3.5-Omni 引入了語義中斷——模型嘗試區分用戶真正插話與環境背景噪音。這對在嘈雜環境中部署的語音代理來說是一個真實的使用者體驗改進,但它越來越成為一個預期的基準而非差異化優勢。在將其作為決策驅動因素之前,請在你的聲學環境中測試它是否可靠運作。

聲音複製(上傳語音樣本,模型以該聲音回應)可透過 API 在 Plus 和 Flash 中使用。GPT-4o 的 Realtime API 透過微調支援自訂語音,但不以相同方式公開直接的聲音複製。如果跨長對話的語音人格一致性是產品需求,這是一個真實的能力差異。

API 存取和基礎設施適配性

DashScope vs. OpenAI API vs. Google Vertex:整合複雜度

對於已在 OpenAI SDK 上的團隊,DashScope 的 OpenAI 相容端點很容易切換:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3-omni-flash",  # or qwen3-omni-plus
    messages=[{"role": "user", "content": "Your message here"}]
)

對於多模態輸入(音訊、影片),你將使用 DashScope 的原生多模態端點,其請求結構略有不同。OpenAI 相容性主要適用於文字補全路徑。在構建音訊管道之前,請驗證哪些端點支援哪些模態。

Google 的 Vertex AI 整合 是三者中最複雜的——它需要 Google Cloud 專案設置、IAM 配置,並使用 Vertex SDK 或 Gemini Developer API,這些工具具有不同的身份驗證流程和略有不同的行為。其回報是企業級存取控制、合規文件和 Google 的 SLA 框架。

自行部署:只有 Qwen3.5-Omni 提供實際路徑

這是本次比較中結構上最重要的差異。GPT-4o 和 Gemini 2.5 Pro 是封閉權重模型——根本不存在自行部署路徑。如果你的用例要求資料永遠不離開你自己的基礎設施(某些醫療保健、金融或國防環境),或者你需要在模型層面對專有音訊資料進行微調,只有 Qwen3.5-Omni 能給你提供一條出路。

Light 變體在 HuggingFace 上開放權重。截至 2026 年 3 月 31 日,Plus 和 Flash 僅限 API——這些變體的開放權重截至撰寫本文時尚未確認已公開發布。如果 Plus 級別的品質加上完整自行部署是你的需求,請在圍繞此規劃你的架構之前驗證當前的開放權重狀態。

對於自行部署需求,vLLM 部署文件和 Qwen 團隊的官方 GitHub 是設置的權威參考。

資料駐留和端點地理位置

對於非中國團隊,DashScope 的國際版(新加坡)端點是預設選項。美國維吉尼亞端點可用,但沒有免費配額,截至本文撰寫時,在將生產流量路由到該端點之前,請確認 Omni 模型是否具體支援多模態(音訊/影片)。

定價結構比較

輸入 Token 分層 vs. 固定每次呼叫定價

三家提供商的基本定價架構各不相同:

Qwen3.5-Omni(DashScope): 基於當前請求的輸入 token 數量的分層定價。在單次請求中跨越層級邊界會使整個請求的輸入費率提升——而不僅僅是超出閾值的 token。這意味著一個 35K token 的音訊片段和一個 5K token 的文字查詢以不同的每 token 費率計費,即使你的月度用量完全相同。短請求很便宜;長上下文音訊請求比固定費率模型所暗示的要貴得多。

GPT-4o: 文字的固定每 token 定價(輸入 $2.50 / 輸出 $10.00,每 1M tokens)。音訊是完全獨立的項目:Chat Completions 音訊路徑約 $100/1M 音訊輸入 tokens;Realtime API(gpt-realtime)在最近降價 20% 後,音訊輸入 $32/1M,音訊輸出 $64/1M。Realtime API 中的文字 tokens 為輸入 $4.00 / 輸出 $16.00——顯著高於標準 Chat Completions 費率。

Gemini 2.5 Pro: 按上下文長度分層,但結構更簡單:對於提示 ≤200K tokens,標準費率(輸入 $1.25 / 輸出 $10.00,每 1M tokens);對於提示 >200K tokens,費率翻倍。音訊輸入比文字定價更高——Flash 層級大約貴 3 倍;請在 Google AI 開發者定價文件中驗證 Pro 音訊費率。批次模式為非同步工作負載節省 50% 費用。

大規模成本:高容量語音/音訊工作負載

為了具體比較,考慮每月 100,000 分鐘音訊輸入的工作負載——大約是中等規模的轉錄或語音代理操作:

  • 以約 427 tokens/分鐘音訊(基於 Qwen 發布的上下文計算),每月約 4,270 萬音訊輸入 tokens
  • GPT-4o Realtime 以 $32/1M 音訊輸入:僅音訊輸入就約 $1,366/月,還不包括文字輸入/輸出成本
  • Gemini 2.5 Pro 音訊(Flash 層級約 $1.00/1M,Pro 可能不同):如果在標準上下文範圍內,約 $427/月——請驗證 Pro 音訊費率
  • Qwen3.5-Omni:成本完全取決於音訊如何批量打包到請求中;每個跨越層級邊界的請求都以更高的費率為整個請求計費。不知道你的請求大小分佈,無法給出固定數字

在非常高的容量且請求大小可預測的情況下,自行部署 Qwen3.5-Omni 的 Flash 或 Light 變體值得計算。在 FP8 精度下運行 Flash 的單個 H100 80GB,在超過某個月度用量後,其每 GPU 小時費率將低於 API 成本。

決策框架:何時使用哪個

選擇 Qwen3.5-Omni 的情況:

  • 必須自行部署——資料駐留、微調或供應商獨立性是不可妥協的。這是本次比較中唯一具有開放權重路徑的模型。
  • 多語言語音是主要用例——113 種 ASR 語言和 36 種 TTS 語言,結合原生全模態架構,對於非英語優先產品是一個有意義的能力優勢。驗證你的特定語言在可接受的品質下能正常運作。
  • 大規模的成本敏感性很重要——在高容量下,自行部署的 Flash 或 Light 變體可以顯著低於 API 定價。在純 API 使用上,在假設它更便宜之前,請根據你的請求大小分佈仔細建模分層定價。
  • 你需要跨長對話的聲音複製或語音人格一致性——目前在 Qwen3.5-Omni 中比 GPT-4o 或 Gemini 更容易實現。

選擇 GPT-4o 的情況:

  • OpenAI 生態系統已在你的技術棧中——Assistants API、微調、函式呼叫、Batch API。切換成本是真實的;工具成熟度是真實的。
  • 工具成熟度比成本更重要——對於需要複雜工具呼叫、多輪狀態管理或與現有 OpenAI 工作流程整合的語音代理,GPT-4o 的生產追蹤記錄是三者中最強的。
  • 你主要使用英語或高資源西歐語言——GPT-4o 對這些語言的 ASR 品質已經過充分測試,在生產中可靠。

選擇 Gemini 2.5 Pro 的情況:

  • Google Cloud 是你的基礎設施——原生 Vertex AI 整合、GCP IAM 和企業協議,如果你已在 Google 生態系統中,這些是真實的優勢。
  • 你需要 100 萬以上 token 的上下文——對於處理非常長的錄音、多小時內容分析或在不分塊的情況下維護非常長的對話歷史,Gemini 的上下文上限在本次比較中是明顯的贏家。
  • Google Workspace 整合很重要——對於涉及 Docs、Drive、Meet 或其他 Workspace 產品的企業用例,Gemini-Workspace 整合路徑比其他選擇更自然。

承諾之前需要了解的限制

Qwen3.5-Omni:MoE 推論開銷、早期 API 穩定性

Plus 變體的 MoE 架構意味著推論性能不如同等品質的密集模型可預測。在可變並發性下,路由開銷可能導致延遲峰值。vLLM 在自行部署環境中相比 HuggingFace Transformers 顯著緩解了這一問題,但並非完全消除——MoE 路由延遲是架構固有的。

API 穩定性是一個尚待解答的問題。速率限制目前沒有公開記錄。端點在負載下的行為、SLA 承諾和版本固定保證在這個階段都是未知數。對於有正常運行時間要求的生產部署,請規劃備用方案。

GPT-4o:無自行部署、大規模定價不透明

完全沒有自行部署路徑。如果這是硬性要求,GPT-4o 不是候選者。

透過 Realtime API 的音訊定價(輸入 $32/1M,輸出 $64/1M)在大規模下並不便宜,且計費結構——同一對話中文字和音訊 token 的獨立費率——如果開發者假設標準 Chat Completions 費率適用,可能會產生帳單意外。Realtime API 基於會話的上下文視窗管理也為長對話增加了成本複雜性。

OpenAI 對模型和功能的定價歷史包括降價和重組。對於需要持續 12 個月以上的成本模型,OpenAI 的定價比 Google 的更難預測。

Gemini 2.5 Pro:Vertex 鎖定、中國可及性

Vertex AI 整合對 Google Cloud 團隊是真實的優勢,對其他所有人則是真實的限制。企業功能、資料駐留控制和合規工具是 Vertex 原生的;Gemini Developer API 的企業控制較少。從 Developer API 開始並在生產中遷移到 Vertex 的團隊將遇到不同的 SDK、不同的身份驗證和不同的計費。

Gemini 模型在中國大陸無法可靠存取。如果你的團隊或用戶在中國運營,DashScope 路徑是實際可行的選擇。

Gemini 2.5 Pro 的 200K token 定價閾值也值得注意:如果你的平均請求持續超過 200K tokens,你將支付宣傳輸入費率的 2 倍。要使 100 萬上下文具有成本效益,你需要真正受益於完整視窗的工作負載,而不會過於頻繁地觸及 2 倍層級。

常見問題

Qwen3.5-Omni 是否比 GPT-4o 更適合多語言語音應用?

在紙面上和基準測試中,Qwen3.5-Omni-Plus 在語言數量(113 種 ASR,36 種 TTS)和音視頻理解基準測試上處於領先。實際上,答案取決於你的具體語言、音訊品質和領域。Qwen3.5-Omni 於 2026 年 3 月 30 日發布——獨立的生產評估尚不存在。在做決定之前,請用來自目標用戶的真實樣本進行測試。

我可以在不使用 DashScope 的情況下在生產中運行 Qwen3.5-Omni 嗎?

Light 變體在 HuggingFace 上以開放權重提供,適合在適當硬體上進行自行部署的生產部署。Plus 和 Flash 目前僅透過 DashScope 以 API 方式提供。截至 2026 年 3 月 31 日,Plus/Flash 的開放權重尚未確認——在規劃自行部署的 Plus 之前,請驗證當前狀態。

Qwen3.5-Omni 是否支援 OpenAI API 格式?

是的。DashScope 在 https://dashscope-intl.aliyuncs.com/compatible-mode/v1 公開了一個 OpenAI 相容端點,支援 Chat Completions API 格式。這適用於文字和文字+視覺輸入。對於音訊和影片輸入,請驗證你需要的特定模態是否透過相容端點處理或需要 DashScope 的原生多模態端點——相容層並非對所有模態均等支援。

Previous Posts: