MiniMax M2.7: Das selbst-evolvierende KI-Modell, das Claude und GPT zu einem Bruchteil der Kosten übertrifft
MiniMax M2.7 ist ein Flaggschiff-Textmodell der nächsten Generation mit Selbstverbesserungsfähigkeiten, 56,22 % auf SWE-Pro, 100 TPS Geschwindigkeit und 0,30 $/M Eingabe-Token. Vergleichen Sie M2.7 mit Claude Opus 4.6, GPT-5 und Gemini 3.1 bei Benchmarks, Preisen und Agent-Fähigkeiten.
MiniMax M2.7: Ein selbstevolvierendes Modell, das die Regeln von KI-Agenten neu schreibt
Was passiert, wenn man einem KI-Modell erlaubt, an seiner eigenen Evolution teilzunehmen? MiniMax hat diese Frage gerade mit M2.7 beantwortet — einem nextgenerationalen Flaggschiff-Textmodell, das Aufgaben nicht nur ausführt, sondern sich durch reale Interaktion aktiv selbst verbessert. Aufgebaut auf dem OpenClaw (Agent Harness) Framework, führte M2.7 während des Trainings autonom über 100 Runden der Scaffold-Optimierung durch und erzielte eine 30%ige Leistungsverbesserung bei internen Evaluierungen — ohne menschliches Eingreifen.
Das Ergebnis ist ein Modell, das Claude Opus 4.6 und GPT-5 bei den schwersten Coding- und Agenten-Benchmarks erreicht oder annähert, 3x schneller läuft und einen Bruchteil des Preises kostet. Hier ist alles, was Sie wissen müssen.
Was M2.7 anders macht: Selbstverbesserung
Die meisten KI-Modelle werden trainiert, evaluiert und als statische Artefakte eingesetzt. M2.7 bricht dieses Muster. Es ist MiniMaxs erstes Modell, das tief an seiner eigenen Evolution teilnimmt — beteiligt an der Aktualisierung seines eigenen Gedächtnisses, dem Aufbau von Trainingsfähigkeiten und der Verbesserung seines eigenen Lernprozesses.
Während der Entwicklung hat M2.7 autonom:
- 100+ Iterationszyklen zur Optimierung seiner eigenen Scaffold-Leistung ausgeführt
- 30–50% der Reinforcement-Learning-Forschungsabläufe eigenständig verwaltet
- An 22 ML-Wettbewerben teilgenommen und dabei 9 Goldmedaillen in besten Durchläufen erzielt
- Eine Medaillenrate von 66,6% auf MLE-Bench Lite erreicht, gleichauf mit Googles Gemini 3.1
Das ist nicht nur eine Trainingstechnik — es ist ein Signal, wohin sich die KI-Entwicklung bewegt. Modelle, die ihre eigene Leistung evaluieren und verbessern können, repräsentieren ein grundlegend anderes Paradigma als statische Train-and-Deploy-Zyklen.
Benchmark-Leistung: Weit über dem Gewicht kämpfen
M2.7 aktiviert nur 10 Milliarden Parameter — was es zum kleinsten Modell in der Tier-1-Leistungsklasse macht. Trotz dieser Effizienz konkurriert es direkt mit Modellen, die um Größenordnungen größer sind.
Software Engineering
| Benchmark | M2.7 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|
| SWE-Pro | 56,22% | ~57% | 56,2% |
| SWE-bench Verified | 78% | 55% | — |
| VIBE-Pro (End-to-End-Lieferung) | 55,6% | — | — |
| Terminal Bench 2 | 57,0% | — | — |
M2.7 erreicht Opus auf SWE-Pro nahezu und übertrifft es deutlich bei SWE-bench Verified (78% vs. 55%). Bei VIBE-Pro — das die End-to-End-Projektlieferung statt isolierter Patches misst — erzielt M2.7 55,6%, was reale Engineering-Fähigkeiten jenseits benchmark-spezifischer Optimierung demonstriert.
Professionelle Produktivität
| Benchmark | M2.7 | Bester Mitbewerber |
|---|---|---|
| GDPval-AA (Office-Aufgaben) | ELO 1495 | Höchster unter Open-Source-Modellen |
| Skill Adherence (40 komplexe Aufgaben) | 97% | — |
| MM Claw (Agenten-Evaluierung) | 62,7% | Annähernd an Sonnet 4.6 |
M2.7s ELO-Score von 1495 auf GDPval-AA — das reale Office-Produktivitätsaufgaben über Excel, PowerPoint, Word und komplexe Dokumentenbearbeitung evaluiert — ist der höchste unter allen Open-Source-Modellen. Die 97%ige Skill-Adherence-Rate bei über 40 komplexen Aufgaben (jede mit mehr als 2.000 Tokens) demonstriert zuverlässige Ausführung bei den anspruchsvollen, mehrstufigen Arbeitsabläufen, an denen die meisten Modelle scheitern.
Machine-Learning-Forschung
| Benchmark | M2.7 | Gemini 3.1 | GPT-5.4 |
|---|---|---|---|
| MLE-Bench Lite (Medaillenrate) | 66,6% | 66,6% | 71,2% |
M2.7 ist gleichauf mit Googles Gemini 3.1 und nähert sich GPT-5.4s State-of-the-Art bei Machine-Learning-Wettbewerbs-Benchmarks — ein bemerkenswertes Ergebnis für ein Modell mit nur 10 Milliarden aktivierten Parametern.
Geschwindigkeit und Preisgestaltung: Die echte Disruption
Rohe Benchmark-Ergebnisse erzählen eine Geschichte. Kostenbereinigte Leistung erzählt eine völlig andere.
| Metrik | M2.7 | Claude Opus 4.6 | GPT-5 |
|---|---|---|---|
| Geschwindigkeit | 100 TPS | ~33 TPS | ~40 TPS |
| Eingabekosten | $0,30/M Tokens | $15/M Tokens | $10/M Tokens |
| Ausgabekosten | $1,20/M Tokens | $75/M Tokens | $30/M Tokens |
| Gemischte Kosten (mit Cache) | $0,06/M Tokens | — | — |
| Aktivierte Parameter | 10 Mrd. | — | — |
M2.7 ist 50x günstiger als Opus bei der Eingabe und 60x günstiger bei der Ausgabe — während es ihn bei SWE-Pro erreicht. Mit 100 Tokens pro Sekunde ist es zudem 3x schneller. Mit automatischer Cache-Optimierung sinken die effektiven gemischten Kosten auf nur $0,06 pro Million Tokens.
Für Teams, die hochvolumige Agenten-Workloads, Coding-Assistenten oder Dokumentenverarbeitungs-Pipelines betreiben, verändert diese Kostenstruktur die Wirtschaftlichkeit des Machbaren.
Kernfähigkeiten
Agentenzentrierte Workflows
M2.7 ist von Grund auf für agentische Anwendungsfälle konzipiert. Das OpenClaw-Framework ermöglicht:
- Kontinuierliche Selbstverbesserung in realen Umgebungen
- Multi-Agenten-Kollaboration mit nativen Fähigkeiten in Rollengrenzen, adversarialem Reasoning und Protokolleinhaltung
- Aktive Teilnahme an Ausführung und Entscheidungsfindung statt passiver Antwortgenerierung
- Komplexe Umgebungsinteraktion mit 97%iger Skill-Adherence bei anspruchsvollen mehrstufigen Aufgaben
Software Engineering
Über Benchmarks hinaus bewältigt M2.7 reale Engineering-Workflows:
- End-to-End-Projektlieferung (nicht nur isolierte Code-Patches)
- Log-Analyse und Debugging
- Code-Sicherheitsüberprüfung
- Entwicklung von Machine-Learning-Pipelines
Office-Suite-Exzellenz
Erweiterte Fähigkeiten für professionelle Produktivität:
- Komplexe Excel-Operationen und Formelgenerierung
- Erstellung und Bearbeitung von PowerPoint-Präsentationen
- Manipulation von Word-Dokumenten
- Unterstützung für mehrstufige Modifikationen — Dokumente durch Konversation iterieren
Charakter und emotionale Intelligenz
M2.7 enthält erweiterte Fähigkeiten zur Identitätserhaltung und emotionalen Intelligenz und bietet eine Grundlage für interaktive Unterhaltung, Rollenspiele und charaktergetriebene Anwendungen.
Zwei API-Varianten
| Variante | Geschwindigkeit | Qualität | Anwendungsfall |
|---|---|---|---|
| M2.7 | Standard | Volle Qualität | Produktion, komplexe Aufgaben |
| M2.7-highspeed | Schneller | Identische Ergebnisse | Hoher Durchsatz, latenzempfindlich |
Beide Varianten liefern identische Ergebnisse — die Highspeed-Variante verarbeitet lediglich schneller für latenzempfindliche Anwendungen.
Kompatibilität mit Entwicklerwerkzeugen
M2.7 integriert sich in die Werkzeuge, die Entwickler bereits nutzen:
- KI-Coding: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
- Agenten: OpenCode, Droid, TRAE, Grok CLI
- Plattformen: MiniMax Agent, MiniMax API Platform
OpenRoom: Interaktive Agenten-Demo
MiniMax hat auch OpenRoom als Open Source veröffentlicht — eine interaktive Agenten-Demonstration, die KI-Interaktion über reinen Text hinaus in grafische Umgebungen bringt. Der Großteil des Codes wurde von KI generiert, was M2.7s praktische Coding-Fähigkeiten demonstriert.
- Repository: github.com/MiniMax-AI/OpenRoom
- Live-Demo: openroom.ai
M2.7 vs. die Konkurrenz: Wer sollte was verwenden
| Wenn Sie brauchen… | Beste Wahl |
|---|---|
| Maximale Benchmark-Obergrenze unabhängig von den Kosten | Claude Opus 4.6 |
| Beste kostenbereinigte Coding-Leistung | MiniMax M2.7 |
| Schnellste Inferenzgeschwindigkeit | MiniMax M2.7 (100 TPS) |
| Hochvolumige Agenten-Workloads | MiniMax M2.7 (50x günstiger) |
| Office-Produktivitätsautomatisierung | MiniMax M2.7 (höchster GDPval-AA ELO) |
| Etabliertes Ökosystem und Integrationen | Claude oder GPT |
| Selbstverbessernde Agentenfähigkeiten | MiniMax M2.7 (OpenClaw) |
M2.7 auf WaveSpeedAI ausprobieren
WaveSpeedAI bietet Zugang zu MiniMax M2.7 neben Hunderten anderer KI-Modelle über eine einheitliche Plattform. Ob Sie Coding-Agenten, Dokumentenverarbeitungs-Pipelines oder interaktive Anwendungen entwickeln — M2.7s Kombination aus Tier-1-Leistung und einem Bruchteil des üblichen Preises macht es zur effizientesten Wahl für Produktions-Workloads.
MiniMax M2.7 auf WaveSpeedAI ausprobieren →
Keine Abonnements. Keine Kaltstart-Verzögerungen. Zahlen Sie nur für das, was Sie nutzen.
Das Fazit
MiniMax M2.7 ist nicht nur eine weitere Modellveröffentlichung — es ist ein Proof of Concept für selbstevolvierende KI. Ein Modell mit nur 10 Milliarden aktivierten Parametern, das Opus und GPT-5 bei den schwersten Engineering-Benchmarks erreicht und dabei 3x schneller bei 50x niedrigeren Kosten läuft, stellt genau die Art von Disruption dar, die neu gestaltet, wie Teams mit KI entwickeln.
Die Frage ist nicht, ob M2.7 gut genug ist. Die Frage ist, ob Sie es rechtfertigen können, 50x mehr für marginale Gewinne zu zahlen.

