Qwen3.5-Omni vs GPT-4o vs Gemini 2.5 Pro : Comparaison des modèles omni

Bonjour à tous ! Je suis Dora, qui, comme d’habitude, avait sur son bureau un cahier des charges de projet d’agent vocal nécessitant une décision : quelle famille de modèles utiliser comme base. GPT-4o était le choix par défaut que tout le monde supposait. Gemini 2.5 Pro revenait sans cesse pour son plafond de contexte. Et puis, Qwen3.5-Omni est arrivé fin mars, avec des annonces qui m’ont fait stopper mon défilement — 113 langues de reconnaissance, chemin open-weight, tarification échelonnée, contexte de 256K. Je ne pouvais tout simplement pas l’ignorer.

Alors j’ai creusé le sujet. Ceci n’est pas un récapitulatif de benchmarks mais un guide de décision : ce que chaque modèle offre concrètement, là où les chiffres tiennent la route, et lequel a du sens pour votre projet spécifique.

Comment Ces Modèles Se Positionnent

Qwen3.5-Omni : Open-Weight en Priorité, Auto-Hébergement Viable, Voix Multilingue

Qwen3.5-Omni est le modèle omni-modal natif d’Alibaba — texte, audio, image et vidéo en entrée, texte ou voix en temps réel en sortie, le tout en un seul appel d’inférence. Il est disponible en trois variantes : Plus (30B-A3B MoE), Flash (MoE plus léger, latence réduite) et Light (modèle dense plus petit, poids ouverts sur HuggingFace). L’architecture est Thinker-Talker — le composant de raisonnement et le composant de synthèse vocale fonctionnent comme un système divisé, ce qui permet une sortie vocale en streaming avant que la réponse complète ne soit terminée.

La différenciation la plus claire est l’auto-hébergement. Plus et Flash sont accessibles via l’API DashScope ; la variante Light a des poids ouverts. Si la résidence des données, le fine-tuning ou le coût à l’échelle sont des préoccupations primaires, Qwen3.5-Omni est actuellement la seule option dans cette comparaison avec un chemin d’auto-hébergement réaliste. Le modèle prend en charge le format d’API compatible OpenAI via DashScope, ce qui réduit la friction d’intégration pour les équipes déjà sur le SDK OpenAI.

GPT-4o : API Fermée, Chaîne d’Outils Étroitement Intégrée, Écosystème OpenAI

GPT-4o est le modèle multimodal phare d’OpenAI, disponible via l’API Chat Completions standard et l’API Realtime pour les charges de travail voix-à-voix. Aucun chemin d’auto-hébergement n’existe — il est entièrement fermé. Ce que GPT-4o perd en flexibilité, il le compense par la maturité de l’écosystème : appel de fonctions, API Assistants, fine-tuning, API Batch, interpréteur de code, recherche de fichiers, et une chaîne d’outils développeur que la plupart des équipes ont déjà intégrée. Si votre stack fonctionne déjà sur OpenAI, les coûts de changement sont réels.

L’audio dans GPT-4o est géré par deux chemins distincts : l’API Chat Completions (gpt-4o-audio-preview, asynchrone) et l’API Realtime (gpt-realtime, WebSocket à faible latence). Ce sont des endpoints séparés avec des tarifications significativement différentes, ce qui est important pour les décisions d’architecture d’agent vocal.

Gemini 2.5 Pro : Infrastructure Google, Multimodal Natif, Intégration Vertex AI

Gemini 2.5 Pro est le flagship milieu de gamme de Google, conçu pour les tâches nécessitant un raisonnement solide et une compréhension multimodale. Il prend en charge une fenêtre de contexte d’1 million de tokens — la plus grande de cette comparaison par un facteur de quatre — et est disponible via l’API Gemini Developer et Vertex AI. Le chemin Vertex est la route entreprise : il s’intègre avec Google Cloud IAM, les contrôles de résidence des données et les outils Workspace, mais il introduit également une tarification spécifique à Vertex et des considérations de verrouillage.

L’entrée audio est prise en charge ; la sortie vocale en temps réel natif est gérée via l’API Live (conversationnelle à faible latence) plutôt que l’endpoint de complétion standard. Pour les équipes déjà sur Google Cloud, le scénario d’intégration est convaincant. Pour les équipes pas sur Google Cloud, Vertex ajoute une friction d’intégration que l’API Gemini Developer évite.

Tableau de Comparaison Principal

Dimension	Qwen3.5-Omni (Plus)	GPT-4o	Gemini 2.5 Pro
Fenêtre de contexte	256K tokens	128K tokens	1M tokens
Limite d’entrée audio	~10 h en continu	Limitée par le contexte 128K	~11 h à 1M de contexte
Langues de sortie vocale	36	~6 (voix préréglées)	Limitées (API Live)
Langues de reconnaissance vocale	113	Basé sur Whisper (~100)	Multilingue solide
Auto-hébergement	✅ Viable (poids ouverts Light ; Plus/Flash via API)	❌ Non disponible	❌ Non disponible
Poids ouverts	✅ Variante Light (HuggingFace)	❌	❌
Modèle de tarification	Échelonné par nombre de tokens d’entrée par requête	Forfait par token (audio tarifé séparément)	Échelonné par longueur de contexte (>200K taux supérieur)
Tarif texte en entrée (par 1M)	Varie selon le palier ; voir DashScope	$2,50	$1,25 (≤200K tokens)
Tarif audio en entrée	Spécifique à la modalité ; voir DashScope	~$100/1M tokens (Realtime : $32/1M)	~$1,00/1M (tarif Gemini 2.5 Flash pour l’audio)
Compatibilité API	Compatible OpenAI (DashScope)	OpenAI natif	Compatible OpenAI (partiel)
Quota gratuit	1M tokens (International, 90 jours)	Aucun (crédits d’essai uniquement)	Niveau gratuit généreux (Google AI Studio)
Intégration Vertex / entreprise	Alibaba Cloud uniquement	Azure OpenAI / accords entreprise	Google Cloud natif / Vertex AI
Statut de lancement	30 mars 2026 (très récent)	GA, stable en production	GA, stable en production

Données de tarification : texte GPT-4o depuis la page de tarification OpenAI ; Gemini 2.5 Pro depuis la tarification Google AI Developer ; Qwen3.5-Omni depuis la tarification DashScope. Les tarifs audio sont approximatifs — vérifiez toujours avant de modéliser les coûts.

Benchmarks Audio et Voix : Ce Que Cela Signifie pour les Développeurs

Où Qwen3.5-Omni-Plus Est en Tête

Alibaba affirme que Qwen3.5-Omni-Plus a atteint des résultats SOTA sur 215 sous-tâches audio et audio-visuelles, surpassant Gemini 3.1 Pro sur les benchmarks généraux de compréhension audio, raisonnement, reconnaissance et traduction. Sur l’ASR multilingue spécifiquement, le saut de 19 langues (génération précédente) à 113 est la métrique phare qui compte le plus pour les équipes qui ne sont pas d’abord anglophones.

Sur la compréhension audio-vidéo — des tâches comme résumer une vidéo avec du son ambiant, répondre à des questions sur une réunion enregistrée, ou sous-titrer du contenu audio — le modèle a des avantages architecturaux dédiés : le Thinker traite toutes les modalités ensemble de manière native, plutôt que de router à travers des piles d’encodeurs séparées.

Où GPT-4o et Gemini Maintiennent des Avantages

L’avantage de GPT-4o n’est pas sur les benchmarks audio bruts — c’est sur l’intégration dans l’écosystème. L’appel de fonctions dans l’API Realtime, l’API Assistants pour les fils de conversation persistants, le fine-tuning sur vos données de domaine, et une chaîne d’outils développeur qui a été testée en production à grande échelle. Si vous construisez un agent vocal qui doit appeler des API externes, gérer l’état de conversation, ou s’intégrer avec des flux de travail existants basés sur OpenAI, la maturité des outils de GPT-4o est un vrai facteur différenciant.

Les avantages de Gemini 2.5 Pro sont le contexte et l’intégration Google. Pour les tâches d’analyse audio ou vidéo où vous souhaitez traiter des heures de contenu en une seule requête sans segmentation, 1M de tokens est le plafond pratique de cette comparaison. Pour les équipes sur Google Cloud qui font tourner des pipelines Vertex AI, l’intégration est native et contractuellement familière.

Mises en Garde sur les Benchmarks : Comptages SOTA vs. Écarts de Déploiement Réel

Le chiffre “215 résultats SOTA” mérite un examen attentif avant de façonner votre décision. Quelques points à savoir sur la construction de ce nombre :

Premièrement, les comptages SOTA s’agrègent sur de nombreuses sous-tâches — paires de langues individuelles, genres audio spécifiques, catégories de benchmarks étroites. Un modèle peut revendiquer des centaines de SOTA tout en perdant sur le benchmark spécifique qui compte le plus pour votre cas d’utilisation (disons, votre langue, votre vocabulaire de domaine, votre profil de qualité audio).

Deuxièmement, Qwen3.5-Omni a été lancé fin mars de cette année. Des évaluations indépendantes par des tiers n’existent pas encore au moment de la rédaction. Les chiffres de comparaison cités par Alibaba ont été générés par l’équipe qui a publié le modèle, en utilisant des benchmarks sélectionnés par cette équipe. Ce n’est pas une accusation de malhonnêteté — c’est une pratique standard lors des publications de modèles — mais c’est la posture épistémique appropriée à adopter jusqu’à ce que des évaluations neutres apparaissent.

Troisièmement, la performance sur benchmark ≠ performance en production. La couverture des accents, le vocabulaire rare, la gestion du bruit de fond, la terminologie spécifique au domaine et la qualité audio du monde réel affectent toutes la qualité ASR en production d’une manière que les benchmarks organisés ne capturent pas. Testez avec vos propres échantillons audio avant de vous engager.

Support Vocal Multilingue

113 Langues de Reconnaissance vs. l’Approche Basée sur Whisper de GPT-4o

La reconnaissance audio de GPT-4o hérite de l’architecture Whisper, qui prend en charge environ 100 langues avec une qualité variable selon la plage. Le modèle fonctionne bien sur les langues à haute ressource (anglais, espagnol, français, mandarin) et se dégrade sur les langues et dialectes à plus faibles ressources. OpenAI ne publie pas de décomposition de la précision par langue, ce qui rend la qualité pour les langues moins courantes difficile à vérifier à l’avance.

La revendication de 113 langues de Qwen3.5-Omni est similaire en portée, mais inclut une couverture explicite des dialectes dans ce compte — une distinction qui compte pour la couverture des langues d’Asie du Sud, d’Asie du Sud-Est et d’Afrique, où “une langue” et “ses dialectes” peuvent avoir une qualité ASR significativement différente. Comme pour toute revendication de nombre de langues, testez avec de vrais échantillons de vos locuteurs cibles. Alibaba a un historique de comptage généreux des dialectes ; calibrez en conséquence.

36 Langues de Sortie Vocale : Pratique pour Quels Marchés ?

La sortie vocale en 36 langues place Qwen3.5-Omni devant les options de voix préréglées actuelles de GPT-4o (principalement l’anglais avec un petit ensemble de langues supplémentaires) pour la TTS non-anglaise. Pour les équipes produit qui construisent des agents vocaux ciblant l’Amérique latine, l’Asie du Sud-Est, ou les marchés européens multilingues, 36 langues de sortie représente un écart de capacité significatif si les langues sont couvertes et si la qualité est adéquate pour votre cas d’utilisation.

L’API Live de Gemini 2.5 Pro prend également en charge la sortie vocale multilingue, mais la documentation de couverture linguistique est moins explicite. Vérifiez la couverture pour vos langues cibles spécifiquement avant de vous engager sur Qwen ou Gemini pour un cas d’utilisation TTS multilingue.

Interruption Sémantique et Clonage de Voix : Différenciateurs ou Acquis ?

Qwen3.5-Omni introduit l’interruption sémantique — le modèle tente de distinguer entre un utilisateur qui intervient genuinement et le bruit ambiant de fond. C’est une vraie amélioration UX pour les déploiements d’agents vocaux dans des environnements bruyants, mais c’est de plus en plus une base attendue plutôt qu’un facteur différenciant. Testez si cela fonctionne de manière fiable dans votre environnement acoustique avant de le traiter comme un élément décisif.

Le clonage de voix (télécharger un échantillon vocal, le modèle répond avec cette voix) est disponible dans Plus et Flash via l’API. L’API Realtime de GPT-4o prend en charge la voix personnalisée via le fine-tuning mais n’expose pas le clonage de voix direct de la même manière. C’est une vraie différence de capacité si la cohérence du persona vocal sur de longues conversations est une exigence produit.

Accès API et Adéquation à l’Infrastructure

DashScope vs. API OpenAI vs. Google Vertex : Complexité d’Intégration

Pour les équipes déjà sur le SDK OpenAI, l’endpoint compatible OpenAI de DashScope est simple à pointer :

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3-omni-flash",  # ou qwen3-omni-plus
    messages=[{"role": "user", "content": "Your message here"}]
)

Pour les entrées multimodales (audio, vidéo), vous utiliserez l’endpoint multimodal natif de DashScope, qui a une structure de requête légèrement différente. La compatibilité OpenAI s’applique principalement aux chemins de complétion de texte. Vérifiez quels endpoints prennent en charge quelles modalités avant de construire votre pipeline audio.

L’intégration Google Vertex AI est la plus complexe des trois — elle nécessite la configuration d’un projet Google Cloud, la configuration IAM, et utilise le SDK Vertex ou l’API Gemini Developer, qui ont des flux d’authentification différents et un comportement légèrement différent. La contrepartie est des contrôles d’accès de niveau entreprise, une documentation de conformité et le cadre SLA de Google.

Auto-Hébergement : Seul Qwen3.5-Omni Offre un Chemin Réaliste

C’est la différence structurellement la plus significative dans cette comparaison. GPT-4o et Gemini 2.5 Pro sont des modèles à poids fermés — il n’existe aucun chemin d’auto-hébergement, point final. Si votre cas d’utilisation exige que les données ne quittent jamais votre propre infrastructure (certains contextes de santé, financiers ou de défense), ou si vous avez besoin de fine-tuner sur des données audio propriétaires au niveau du modèle, seul Qwen3.5-Omni vous offre une voie.

La variante Light a des poids ouverts sur HuggingFace. Plus et Flash sont uniquement accessibles via API au 31 mars 2026 — les poids ouverts pour ces variantes n’ont pas été confirmés comme publiquement disponibles au moment de la rédaction. Si la qualité niveau Plus avec un auto-hébergement complet est votre exigence, vérifiez le statut actuel des poids ouverts avant de planifier votre architecture en conséquence.

Pour les exigences d’auto-hébergement, la documentation de déploiement vLLM et le GitHub officiel de l’équipe Qwen sont les références faisant autorité pour la configuration.

Résidence des Données et Géographie des Endpoints

Pour les équipes hors Chine, l’endpoint International (Singapour) de DashScope est le défaut. L’endpoint US Virginie est disponible mais n’a pas de quota gratuit et, à l’heure actuelle, confirmez le support multimodal (audio/vidéo) pour les modèles Omni spécifiquement avant de router le trafic de production là-bas.

Comparaison de la Structure Tarifaire

Paliers de Tokens d’Entrée vs. Tarification Forfaitaire par Appel

L’architecture tarifaire fondamentale diffère entre les trois fournisseurs :

Qwen3.5-Omni (DashScope) : Tarification échelonnée basée sur le nombre de tokens d’entrée de la requête en cours. Franchir un seuil de palier dans une seule requête fait passer le taux d’entrée de toute la requête au niveau supérieur — pas seulement les tokens au-delà du seuil. Cela signifie qu’un clip audio de 35K tokens et une requête texte de 5K tokens sont tarifés à des taux par token différents, même si votre volume mensuel est identique. Les requêtes courtes sont bon marché ; les requêtes audio à long contexte deviennent coûteuses plus rapidement qu’un modèle à tarif fixe ne le suggérerait.

GPT-4o : Tarification forfaitaire par token pour le texte ($2,50 entrée / $10,00 sortie par 1M tokens). L’audio est un poste séparé entièrement : le chemin audio via l’API Chat Completions tourne autour de ~$100/1M tokens audio en entrée ; l’API Realtime (gpt-realtime) tourne à $32/1M en entrée audio et $64/1M en sortie audio après une récente réduction de prix de 20%. Les tokens texte dans l’API Realtime sont à $4,00 entrée / $16,00 sortie — significativement plus élevé que le tarif standard Chat Completions.

Gemini 2.5 Pro : Échelonné par longueur de contexte, mais la structure est plus simple : tarif standard ($1,25 entrée / $10,00 sortie par 1M tokens) pour les prompts ≤200K tokens ; tarif 2x pour les prompts >200K tokens. L’entrée audio est tarifée à une prime sur le texte — environ 3x pour le palier Flash ; vérifiez les tarifs audio Pro dans la documentation de tarification Google AI Developer. Le mode batch réduit les tarifs de 50% pour les charges de travail asynchrones.

Coût à l’Échelle : Charges de Travail Voix / Audio à Haut Volume

Pour une comparaison concrète, considérons une charge de travail de 100 000 minutes d’entrée audio par mois — environ une opération de transcription ou d’agent vocal à mi-échelle :

À ~427 tokens/minute d’audio (basé sur les calculs de contexte publiés par Qwen), cela représente ~42,7M tokens audio en entrée par mois
GPT-4o Realtime à $32/1M tokens audio en entrée : ~$1 366/mois rien que pour l’entrée audio, avant les coûts de tokens texte en entrée/sortie
Audio Gemini 2.5 Pro (à ~$1,00/1M pour le palier Flash plus court, Pro peut différer) : ~$427/mois si dans la plage de contexte standard — vérifiez les tarifs audio Pro
Qwen3.5-Omni : Le coût dépend entièrement de la façon dont l’audio est regroupé dans les requêtes ; chaque requête qui franchit un seuil de palier paie le tarif supérieur pour toute la requête. Impossible de donner un chiffre fixe sans connaître la distribution de la taille de vos requêtes

À très haut volume avec des tailles de requêtes prévisibles, l’auto-hébergement de la variante Flash ou Light de Qwen3.5-Omni vaut la peine d’être calculé. Un seul H100 80GB faisant tourner Flash en FP8 peut gérer l’inférence en production à un tarif horaire GPU qui sous-coûte les tarifs API au-delà d’un certain volume mensuel.

Cadre de Décision : Quand Utiliser Lequel

Choisissez Qwen3.5-Omni Si :

L’auto-hébergement est requis — la résidence des données, le fine-tuning, ou l’indépendance vis-à-vis des fournisseurs sont non négociables. C’est le seul modèle dans cette comparaison avec un chemin open-weight.
La voix multilingue est le cas d’utilisation principal — 113 langues ASR et 36 langues TTS, combinées à une architecture omni-modale native, représentent un avantage de capacité significatif pour les produits qui ne sont pas d’abord anglophones. Vérifiez que vos langues spécifiques fonctionnent à une qualité acceptable.
La sensibilité aux coûts à l’échelle compte — à haut volume, la variante Flash ou Light auto-hébergée peut significativement sous-coûter la tarification API. Sur une utilisation API pure, modélisez soigneusement la tarification échelonnée pour la distribution de la taille de vos requêtes avant de supposer qu’elle est moins chère.
Vous avez besoin du clonage de voix ou de la cohérence du persona vocal sur de longues conversations — ceci est actuellement plus accessible dans Qwen3.5-Omni que dans GPT-4o ou Gemini.

Choisissez GPT-4o Si :

L’écosystème OpenAI est déjà dans votre stack — API Assistants, fine-tuning, appel de fonctions, API Batch. Les coûts de changement sont réels ; la maturité des outils est genuine.
La maturité des outils compte plus que le coût — pour les agents vocaux qui nécessitent un appel d’outils complexe, une gestion d’état multi-tours, ou une intégration avec des flux de travail OpenAI existants, le bilan en production de GPT-4o est le plus solide des trois.
Vous construisez principalement en anglais ou dans des langues d’Europe occidentale à haute ressource — la qualité ASR de GPT-4o pour ces langues est bien testée et fiable en production.

Choisissez Gemini 2.5 Pro Si :

Google Cloud est votre infrastructure — l’intégration native Vertex AI, GCP IAM et les accords entreprise sont de vrais avantages si vous êtes déjà dans l’écosystème Google.
Vous avez besoin d’un contexte de 1M+ tokens — pour traiter de très longues enregistrements, l’analyse de contenu de plusieurs heures, ou maintenir un très long historique de conversation sans segmentation, le plafond de contexte de Gemini est le gagnant incontesté dans cette comparaison.
L’intégration Google Workspace compte — pour les cas d’utilisation entreprise impliquant Docs, Drive, Meet ou d’autres produits Workspace, le chemin d’intégration Gemini-Workspace est plus naturel que les alternatives.

Limitations à Connaître Avant de S’Engager

Qwen3.5-Omni : Surcharge d’Inférence MoE, Stabilité API en Phase Initiale

L’architecture MoE de la variante Plus signifie que les performances d’inférence sont moins prévisibles qu’un modèle dense de qualité équivalente. Sous une concurrence variable, la surcharge de routage peut provoquer des pics de latence. vLLM atténue cela significativement par rapport à HuggingFace Transformers pour les déploiements auto-hébergés, mais ne l’élimine pas — la latence de routage MoE est inhérente à l’architecture.

La stabilité de l’API est une question ouverte. Les limites de taux ne sont pas publiquement documentées pour l’instant. Le comportement des endpoints sous charge, les engagements SLA et les garanties d’épinglage de version sont tous des inconnues à ce stade. Pour les déploiements en production avec des exigences de disponibilité, prévoyez un fallback.

GPT-4o : Pas d’Auto-Hébergement, Opacité Tarifaire à l’Échelle

Pas d’auto-hébergement, point final. Si c’est une exigence impérative, GPT-4o n’est pas un candidat.

La tarification audio via l’API Realtime ($32/1M entrée, $64/1M sortie) n’est pas bon marché à l’échelle, et la structure de facturation — tarifs séparés pour les tokens texte et audio dans la même conversation — peut produire des surprises sur la facture si les développeurs supposent que les tarifs Chat Completions standard s’appliquent. La gestion du contexte basée sur les sessions de l’API Realtime ajoute également une complexité de coût pour les longues conversations.

L’historique de tarification d’OpenAI pour les modèles et fonctionnalités a inclus à la fois des réductions et des restructurations. Pour un modèle de coût qui doit tenir 12+ mois, la tarification OpenAI est moins prévisible que celle de Google.

Gemini 2.5 Pro : Verrouillage Vertex, Accessibilité en Chine

L’intégration Vertex AI est un vrai avantage pour les équipes Google Cloud et une vraie contrainte pour tous les autres. Les fonctionnalités entreprise, les contrôles de résidence des données et les outils de conformité sont natifs à Vertex ; l’API Gemini Developer a moins de contrôles entreprise. Les équipes qui commencent sur l’API Developer et migrent vers Vertex pour la production rencontreront un SDK différent, une authentification différente et une facturation différente.

Les modèles Gemini ne sont pas accessibles de manière fiable depuis la Chine continentale. Si votre équipe ou vos utilisateurs opèrent en Chine, le chemin DashScope est l’option pratique.

Le seuil de tarification à 200K tokens de Gemini 2.5 Pro vaut également d’être noté : si votre requête moyenne dépasse constamment 200K tokens, vous payez 2x le tarif d’entrée affiché. Pour que le contexte 1M soit rentable, vous avez besoin de charges de travail qui bénéficient réellement de la fenêtre complète sans atteindre le palier 2x trop fréquemment.

FAQ

Qwen3.5-Omni est-il meilleur que GPT-4o pour les applications vocales multilingues ?

Sur le papier et selon les benchmarks, Qwen3.5-Omni-Plus est en tête sur le nombre de langues (113 ASR, 36 TTS) et sur les benchmarks de compréhension audio-vidéo. En pratique, la réponse dépend de vos langues spécifiques, de votre qualité audio et de votre domaine. Qwen3.5-Omni a été lancé le 30 mars 2026 — des évaluations de production indépendantes n’existent pas encore. Testez avec de vrais échantillons de vos utilisateurs cibles avant de décider.

Puis-je exécuter Qwen3.5-Omni en production sans utiliser DashScope ?

La variante Light est disponible en poids ouverts sur HuggingFace, adaptée aux déploiements en production auto-hébergés sur du matériel approprié. Plus et Flash sont actuellement uniquement accessibles via API sur DashScope. Les poids ouverts pour Plus/Flash n’ont pas été confirmés au 31 mars 2026 — vérifiez le statut actuel avant de planifier un déploiement Plus auto-hébergé.

Qwen3.5-Omni prend-il en charge le format API OpenAI ?

Oui. DashScope expose un endpoint compatible OpenAI à https://dashscope-intl.aliyuncs.com/compatible-mode/v1, qui prend en charge le format d’API Chat Completions. Cela fonctionne pour les entrées texte et texte+vision. Pour les entrées audio et vidéo, vérifiez si la modalité spécifique dont vous avez besoin est gérée via l’endpoint compatible ou nécessite l’endpoint multimodal natif de DashScope — la couche de compatibilité ne couvre pas toutes les modalités de manière égale.

Articles Précédents :