MiniMax M2.7 : Le Modèle d'IA Auto-Évolutif qui Rivalise avec Claude et GPT à une Fraction du Coût

MiniMax M2.7 est un modèle de texte phare de nouvelle génération avec des capacités d'auto-amélioration, 56,22 % sur SWE-Pro, une vitesse de 100 TPS et 0,30 $/M de tokens en entrée. Comparez M2.7 face à Claude Opus 4.6, GPT-5 et Gemini 3.1 sur les benchmarks, les prix et les capacités d'agent.

8 min read

MiniMax M2.7 : Un Modèle Auto-Évolutif qui Réécrit les Règles des Agents IA

Que se passe-t-il lorsqu’on laisse un modèle d’IA participer à sa propre évolution ? MiniMax vient de répondre à cette question avec M2.7 — un modèle de texte phare de nouvelle génération qui ne se contente pas d’exécuter des tâches, mais s’améliore activement grâce aux interactions réelles. Construit sur le framework OpenClaw (Agent Harness), M2.7 a exécuté de manière autonome plus de 100 cycles d’optimisation de scaffold pendant l’entraînement, atteignant une amélioration de 30 % sur les évaluations internes — sans intervention humaine.

Le résultat est un modèle qui égale ou s’approche de Claude Opus 4.6 et GPT-5 sur les benchmarks les plus exigeants en matière de code et d’agents, tourne 3x plus vite, et coûte une fraction du prix. Voici tout ce que vous devez savoir.

Ce qui Distingue M2.7 : L’Auto-Amélioration

La plupart des modèles d’IA sont entraînés, évalués et déployés en tant qu’artefacts statiques. M2.7 brise ce schéma. C’est le premier modèle de MiniMax qui participe profondément à sa propre évolution — impliqué dans la mise à jour de sa propre mémoire, la construction de compétences d’entraînement et l’amélioration de son propre processus d’apprentissage.

Pendant son développement, M2.7 a de manière autonome :

  • Exécuté plus de 100 cycles d’itération pour optimiser ses propres performances de scaffold
  • Géré 30 à 50 % des workflows de recherche en apprentissage par renforcement de façon indépendante
  • Participé à 22 compétitions ML, obtenant 9 médailles d’or dans les meilleurs essais
  • Atteint un taux de médaille de 66,6 % sur MLE-Bench Lite, à égalité avec Gemini 3.1 de Google

Ce n’est pas seulement une technique d’entraînement — c’est un signal de la direction que prend le développement de l’IA. Les modèles capables d’évaluer et d’améliorer leurs propres performances représentent un paradigme fondamentalement différent des cycles statiques d’entraînement et de déploiement.

Performance sur les Benchmarks : Bien Au-Dessus de Son Poids

M2.7 n’active que 10 milliards de paramètres — ce qui en fait le plus petit modèle de la classe de performance Tier-1. Malgré cette efficacité, il rivalise directement avec des modèles bien plus grands.

Génie Logiciel

BenchmarkM2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56,22 %~57 %56,2 %
SWE-bench Verified78 %55 %
VIBE-Pro (livraison bout en bout)55,6 %
Terminal Bench 257,0 %

M2.7 égale presque Opus sur SWE-Pro et le surpasse significativement sur SWE-bench Verified (78 % contre 55 %). Sur VIBE-Pro — qui mesure la livraison de projets de bout en bout plutôt que des correctifs isolés — M2.7 obtient 55,6 %, démontrant une capacité d’ingénierie réelle au-delà de l’optimisation spécifique aux benchmarks.

Productivité Professionnelle

BenchmarkM2.7Meilleur Concurrent
GDPval-AA (tâches bureautiques)ELO 1495Le plus élevé parmi les modèles open source
Adhérence aux compétences (40 tâches complexes)97 %
MM Claw (évaluation d’agents)62,7 %S’approche de Sonnet 4.6

Le score ELO de 1495 de M2.7 sur GDPval-AA — qui évalue les tâches de productivité bureautique réelle dans Excel, PowerPoint, Word et l’édition de documents complexes — est le plus élevé parmi tous les modèles open source. Le taux d’adhérence aux compétences de 97 % sur plus de 40 tâches complexes (chacune dépassant 2 000 tokens) démontre une exécution fiable sur le type de workflows intricats et multi-étapes qui font trébucher la plupart des modèles.

Recherche en Apprentissage Automatique

BenchmarkM2.7Gemini 3.1GPT-5.4
MLE-Bench Lite (taux de médaille)66,6 %66,6 %71,2 %

M2.7 est à égalité avec Gemini 3.1 de Google et s’approche du niveau de pointe de GPT-5.4 sur les benchmarks de compétitions d’apprentissage automatique — un résultat remarquable pour un modèle avec seulement 10 milliards de paramètres activés.

Vitesse et Tarification : La Vraie Disruption

Les scores bruts sur les benchmarks racontent une histoire. La performance ajustée au coût en raconte une complètement différente.

MétriqueM2.7Claude Opus 4.6GPT-5
Vitesse100 TPS~33 TPS~40 TPS
Coût d’entrée0,30 $/M tokens15 $/M tokens10 $/M tokens
Coût de sortie1,20 $/M tokens75 $/M tokens30 $/M tokens
Coût mixte (avec cache)0,06 $/M tokens
Paramètres activés10 milliards

M2.7 est 50x moins cher qu’Opus en entrée et 60x moins cher en sortie — tout en l’égalant sur SWE-Pro. À 100 tokens par seconde, il est également 3x plus rapide. Avec l’optimisation automatique du cache, le coût mixte effectif tombe à seulement 0,06 $ par million de tokens.

Pour les équipes qui exécutent des workloads d’agents à haut volume, des assistants de code ou des pipelines de traitement de documents, cette structure de coût change l’économie de ce qui est faisable.

Capacités Principales

Workflows Centrés sur les Agents

M2.7 est conçu dès le départ pour les cas d’usage agentiques. Le framework OpenClaw permet :

  • L’auto-amélioration continue dans des environnements réels
  • La collaboration multi-agents avec des capacités natives de délimitation des rôles, de raisonnement adversarial et d’adhérence aux protocoles
  • La participation active à l’exécution et à la prise de décision plutôt que la simple génération de réponses passives
  • L’interaction avec des environnements complexes avec 97 % d’adhérence aux compétences sur des tâches multi-étapes complexes

Génie Logiciel

Au-delà des benchmarks, M2.7 gère des workflows d’ingénierie réels :

  • Livraison de projets de bout en bout (pas seulement des correctifs de code isolés)
  • Analyse de journaux et débogage
  • Revue de sécurité du code
  • Développement de pipelines d’apprentissage automatique

Excellence de la Suite Bureautique

Capacités améliorées pour la productivité professionnelle :

  • Opérations Excel complexes et génération de formules
  • Création et édition de présentations PowerPoint
  • Manipulation de documents Word
  • Support de modification multi-tours — itérer sur les documents via la conversation

Personnage et Intelligence Émotionnelle

M2.7 inclut des capacités améliorées de préservation d’identité et d’intelligence émotionnelle, fournissant une base pour les applications de divertissement interactif, de jeu de rôle et de personnages.

Deux Variantes d’API

VarianteVitesseQualitéCas d’Usage
M2.7StandardQualité complèteProduction, tâches complexes
M2.7-highspeedPlus rapideRésultats identiquesHaut débit, sensible à la latence

Les deux variantes produisent des résultats identiques — la variante highspeed traite simplement plus rapidement pour les applications sensibles à la latence.

Compatibilité avec les Outils Développeurs

M2.7 s’intègre avec les outils que les développeurs utilisent déjà :

  • Codage IA : Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
  • Agents : OpenCode, Droid, TRAE, Grok CLI
  • Plateformes : MiniMax Agent, MiniMax API Platform

OpenRoom : Démonstration d’Agent Interactif

MiniMax a également mis en open source OpenRoom — une démonstration d’agent interactif qui fait passer l’interaction IA au-delà du texte brut vers des environnements graphiques. La majeure partie du code a été générée par IA, démontrant les capacités pratiques de codage de M2.7.

M2.7 face à la Concurrence : Qui Devrait Utiliser Quoi

Si vous avez besoin de…Meilleur choix
Plafond de benchmark maximum sans contrainte de coûtClaude Opus 4.6
Meilleures performances de code ajustées au coûtMiniMax M2.7
Vitesse d’inférence la plus rapideMiniMax M2.7 (100 TPS)
Workloads d’agents à haut volumeMiniMax M2.7 (50x moins cher)
Automatisation de la productivité bureautiqueMiniMax M2.7 (ELO GDPval-AA le plus élevé)
Écosystème et intégrations établisClaude ou GPT
Capacités d’agents auto-améliorantsMiniMax M2.7 (OpenClaw)

Essayez M2.7 sur WaveSpeedAI

WaveSpeedAI donne accès à MiniMax M2.7 aux côtés de centaines d’autres modèles d’IA via une plateforme unifiée. Que vous construisiez des agents de code, des pipelines de traitement de documents ou des applications interactives, la combinaison de performances Tier-1 et de tarification à une fraction du coût de M2.7 en fait le choix le plus efficace pour les workloads en production.

Essayez MiniMax M2.7 sur WaveSpeedAI →

Pas d’abonnements. Pas de démarrages à froid. Payez uniquement ce que vous utilisez.

En Conclusion

MiniMax M2.7 n’est pas juste une nouvelle version de modèle — c’est une preuve de concept pour l’IA auto-évolutive. Un modèle avec seulement 10 milliards de paramètres activés qui égale Opus et GPT-5 sur les benchmarks d’ingénierie les plus exigeants, tout en tournant 3x plus vite à un coût 50x inférieur, représente exactement le type de disruption qui remodèle la façon dont les équipes construisent avec l’IA.

La question n’est pas de savoir si M2.7 est suffisamment bon. C’est de savoir si vous pouvez justifier de payer 50x plus pour des gains marginaux.