MiniMax M2.7 : Le Modèle d'IA Auto-Évolutif qui Rivalise avec Claude et GPT à une Fraction du Coût

MiniMax M2.7 : Un Modèle Auto-Évolutif qui Réécrit les Règles des Agents IA

Que se passe-t-il lorsqu’on laisse un modèle d’IA participer à sa propre évolution ? MiniMax vient de répondre à cette question avec M2.7 — un modèle de texte phare de nouvelle génération qui ne se contente pas d’exécuter des tâches, mais s’améliore activement grâce aux interactions réelles. Construit sur le framework OpenClaw (Agent Harness), M2.7 a exécuté de manière autonome plus de 100 cycles d’optimisation de scaffold pendant l’entraînement, atteignant une amélioration de 30 % sur les évaluations internes — sans intervention humaine.

Le résultat est un modèle qui égale ou s’approche de Claude Opus 4.6 et GPT-5 sur les benchmarks les plus exigeants en matière de code et d’agents, tourne 3x plus vite, et coûte une fraction du prix. Voici tout ce que vous devez savoir.

Ce qui Distingue M2.7 : L’Auto-Amélioration

La plupart des modèles d’IA sont entraînés, évalués et déployés en tant qu’artefacts statiques. M2.7 brise ce schéma. C’est le premier modèle de MiniMax qui participe profondément à sa propre évolution — impliqué dans la mise à jour de sa propre mémoire, la construction de compétences d’entraînement et l’amélioration de son propre processus d’apprentissage.

Pendant son développement, M2.7 a de manière autonome :

Exécuté plus de 100 cycles d’itération pour optimiser ses propres performances de scaffold
Géré 30 à 50 % des workflows de recherche en apprentissage par renforcement de façon indépendante
Participé à 22 compétitions ML, obtenant 9 médailles d’or dans les meilleurs essais
Atteint un taux de médaille de 66,6 % sur MLE-Bench Lite, à égalité avec Gemini 3.1 de Google

Ce n’est pas seulement une technique d’entraînement — c’est un signal de la direction que prend le développement de l’IA. Les modèles capables d’évaluer et d’améliorer leurs propres performances représentent un paradigme fondamentalement différent des cycles statiques d’entraînement et de déploiement.

Performance sur les Benchmarks : Bien Au-Dessus de Son Poids

M2.7 n’active que 10 milliards de paramètres — ce qui en fait le plus petit modèle de la classe de performance Tier-1. Malgré cette efficacité, il rivalise directement avec des modèles bien plus grands.

Génie Logiciel

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56,22 %	~57 %	56,2 %
SWE-bench Verified	78 %	55 %	—
VIBE-Pro (livraison bout en bout)	55,6 %	—	—
Terminal Bench 2	57,0 %	—	—

M2.7 égale presque Opus sur SWE-Pro et le surpasse significativement sur SWE-bench Verified (78 % contre 55 %). Sur VIBE-Pro — qui mesure la livraison de projets de bout en bout plutôt que des correctifs isolés — M2.7 obtient 55,6 %, démontrant une capacité d’ingénierie réelle au-delà de l’optimisation spécifique aux benchmarks.

Productivité Professionnelle

Benchmark	M2.7	Meilleur Concurrent
GDPval-AA (tâches bureautiques)	ELO 1495	Le plus élevé parmi les modèles open source
Adhérence aux compétences (40 tâches complexes)	97 %	—
MM Claw (évaluation d’agents)	62,7 %	S’approche de Sonnet 4.6

Le score ELO de 1495 de M2.7 sur GDPval-AA — qui évalue les tâches de productivité bureautique réelle dans Excel, PowerPoint, Word et l’édition de documents complexes — est le plus élevé parmi tous les modèles open source. Le taux d’adhérence aux compétences de 97 % sur plus de 40 tâches complexes (chacune dépassant 2 000 tokens) démontre une exécution fiable sur le type de workflows intricats et multi-étapes qui font trébucher la plupart des modèles.

Recherche en Apprentissage Automatique

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite (taux de médaille)	66,6 %	66,6 %	71,2 %

M2.7 est à égalité avec Gemini 3.1 de Google et s’approche du niveau de pointe de GPT-5.4 sur les benchmarks de compétitions d’apprentissage automatique — un résultat remarquable pour un modèle avec seulement 10 milliards de paramètres activés.

Vitesse et Tarification : La Vraie Disruption

Les scores bruts sur les benchmarks racontent une histoire. La performance ajustée au coût en raconte une complètement différente.

Métrique	M2.7	Claude Opus 4.6	GPT-5
Vitesse	100 TPS	~33 TPS	~40 TPS
Coût d’entrée	0,30 $/M tokens	15 $/M tokens	10 $/M tokens
Coût de sortie	1,20 $/M tokens	75 $/M tokens	30 $/M tokens
Coût mixte (avec cache)	0,06 $/M tokens	—	—
Paramètres activés	10 milliards	—	—

M2.7 est 50x moins cher qu’Opus en entrée et 60x moins cher en sortie — tout en l’égalant sur SWE-Pro. À 100 tokens par seconde, il est également 3x plus rapide. Avec l’optimisation automatique du cache, le coût mixte effectif tombe à seulement 0,06 $ par million de tokens.

Pour les équipes qui exécutent des workloads d’agents à haut volume, des assistants de code ou des pipelines de traitement de documents, cette structure de coût change l’économie de ce qui est faisable.

Capacités Principales

Workflows Centrés sur les Agents

M2.7 est conçu dès le départ pour les cas d’usage agentiques. Le framework OpenClaw permet :

L’auto-amélioration continue dans des environnements réels
La collaboration multi-agents avec des capacités natives de délimitation des rôles, de raisonnement adversarial et d’adhérence aux protocoles
La participation active à l’exécution et à la prise de décision plutôt que la simple génération de réponses passives
L’interaction avec des environnements complexes avec 97 % d’adhérence aux compétences sur des tâches multi-étapes complexes

Génie Logiciel

Au-delà des benchmarks, M2.7 gère des workflows d’ingénierie réels :

Livraison de projets de bout en bout (pas seulement des correctifs de code isolés)
Analyse de journaux et débogage
Revue de sécurité du code
Développement de pipelines d’apprentissage automatique

Excellence de la Suite Bureautique

Capacités améliorées pour la productivité professionnelle :

Opérations Excel complexes et génération de formules
Création et édition de présentations PowerPoint
Manipulation de documents Word
Support de modification multi-tours — itérer sur les documents via la conversation

Personnage et Intelligence Émotionnelle

M2.7 inclut des capacités améliorées de préservation d’identité et d’intelligence émotionnelle, fournissant une base pour les applications de divertissement interactif, de jeu de rôle et de personnages.

Deux Variantes d’API

Variante	Vitesse	Qualité	Cas d’Usage
M2.7	Standard	Qualité complète	Production, tâches complexes
M2.7-highspeed	Plus rapide	Résultats identiques	Haut débit, sensible à la latence

Les deux variantes produisent des résultats identiques — la variante highspeed traite simplement plus rapidement pour les applications sensibles à la latence.

Compatibilité avec les Outils Développeurs

M2.7 s’intègre avec les outils que les développeurs utilisent déjà :

Codage IA : Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
Agents : OpenCode, Droid, TRAE, Grok CLI
Plateformes : MiniMax Agent, MiniMax API Platform

OpenRoom : Démonstration d’Agent Interactif

MiniMax a également mis en open source OpenRoom — une démonstration d’agent interactif qui fait passer l’interaction IA au-delà du texte brut vers des environnements graphiques. La majeure partie du code a été générée par IA, démontrant les capacités pratiques de codage de M2.7.

Dépôt : github.com/MiniMax-AI/OpenRoom
Démonstration en direct : openroom.ai

M2.7 face à la Concurrence : Qui Devrait Utiliser Quoi

Si vous avez besoin de…	Meilleur choix
Plafond de benchmark maximum sans contrainte de coût	Claude Opus 4.6
Meilleures performances de code ajustées au coût	MiniMax M2.7
Vitesse d’inférence la plus rapide	MiniMax M2.7 (100 TPS)
Workloads d’agents à haut volume	MiniMax M2.7 (50x moins cher)
Automatisation de la productivité bureautique	MiniMax M2.7 (ELO GDPval-AA le plus élevé)
Écosystème et intégrations établis	Claude ou GPT
Capacités d’agents auto-améliorants	MiniMax M2.7 (OpenClaw)

Essayez M2.7 sur WaveSpeedAI

WaveSpeedAI donne accès à MiniMax M2.7 aux côtés de centaines d’autres modèles d’IA via une plateforme unifiée. Que vous construisiez des agents de code, des pipelines de traitement de documents ou des applications interactives, la combinaison de performances Tier-1 et de tarification à une fraction du coût de M2.7 en fait le choix le plus efficace pour les workloads en production.

Essayez MiniMax M2.7 sur WaveSpeedAI →

Pas d’abonnements. Pas de démarrages à froid. Payez uniquement ce que vous utilisez.

En Conclusion

MiniMax M2.7 n’est pas juste une nouvelle version de modèle — c’est une preuve de concept pour l’IA auto-évolutive. Un modèle avec seulement 10 milliards de paramètres activés qui égale Opus et GPT-5 sur les benchmarks d’ingénierie les plus exigeants, tout en tournant 3x plus vite à un coût 50x inférieur, représente exactement le type de disruption qui remodèle la façon dont les équipes construisent avec l’IA.

La question n’est pas de savoir si M2.7 est suffisamment bon. C’est de savoir si vous pouvez justifier de payer 50x plus pour des gains marginaux.