← Blog

MiniMax M2.7: Das selbst-evolvierende KI-Modell, das Claude und GPT zu einem Bruchteil der Kosten übertrifft

MiniMax M2.7 ist ein Flaggschiff-Textmodell der nächsten Generation mit Selbstverbesserungsfähigkeiten, 56,22 % auf SWE-Pro, 100 TPS Geschwindigkeit und 0,30 $/M Eingabe-Token. Vergleichen Sie M2.7 mit Claude Opus 4.6, GPT-5 und Gemini 3.1 bei Benchmarks, Preisen und Agent-Fähigkeiten.

6 min read

MiniMax M2.7: Ein selbstevolvierendes Modell, das die Regeln von KI-Agenten neu schreibt

Was passiert, wenn man einem KI-Modell erlaubt, an seiner eigenen Evolution teilzunehmen? MiniMax hat diese Frage gerade mit M2.7 beantwortet — einem nextgenerationalen Flaggschiff-Textmodell, das Aufgaben nicht nur ausführt, sondern sich durch reale Interaktion aktiv selbst verbessert. Aufgebaut auf dem OpenClaw (Agent Harness) Framework, führte M2.7 während des Trainings autonom über 100 Runden der Scaffold-Optimierung durch und erzielte eine 30%ige Leistungsverbesserung bei internen Evaluierungen — ohne menschliches Eingreifen.

Das Ergebnis ist ein Modell, das Claude Opus 4.6 und GPT-5 bei den schwersten Coding- und Agenten-Benchmarks erreicht oder annähert, 3x schneller läuft und einen Bruchteil des Preises kostet. Hier ist alles, was Sie wissen müssen.

Was M2.7 anders macht: Selbstverbesserung

Die meisten KI-Modelle werden trainiert, evaluiert und als statische Artefakte eingesetzt. M2.7 bricht dieses Muster. Es ist MiniMaxs erstes Modell, das tief an seiner eigenen Evolution teilnimmt — beteiligt an der Aktualisierung seines eigenen Gedächtnisses, dem Aufbau von Trainingsfähigkeiten und der Verbesserung seines eigenen Lernprozesses.

Während der Entwicklung hat M2.7 autonom:

  • 100+ Iterationszyklen zur Optimierung seiner eigenen Scaffold-Leistung ausgeführt
  • 30–50% der Reinforcement-Learning-Forschungsabläufe eigenständig verwaltet
  • An 22 ML-Wettbewerben teilgenommen und dabei 9 Goldmedaillen in besten Durchläufen erzielt
  • Eine Medaillenrate von 66,6% auf MLE-Bench Lite erreicht, gleichauf mit Googles Gemini 3.1

Das ist nicht nur eine Trainingstechnik — es ist ein Signal, wohin sich die KI-Entwicklung bewegt. Modelle, die ihre eigene Leistung evaluieren und verbessern können, repräsentieren ein grundlegend anderes Paradigma als statische Train-and-Deploy-Zyklen.

Benchmark-Leistung: Weit über dem Gewicht kämpfen

M2.7 aktiviert nur 10 Milliarden Parameter — was es zum kleinsten Modell in der Tier-1-Leistungsklasse macht. Trotz dieser Effizienz konkurriert es direkt mit Modellen, die um Größenordnungen größer sind.

Software Engineering

BenchmarkM2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56,22%~57%56,2%
SWE-bench Verified78%55%
VIBE-Pro (End-to-End-Lieferung)55,6%
Terminal Bench 257,0%

M2.7 erreicht Opus auf SWE-Pro nahezu und übertrifft es deutlich bei SWE-bench Verified (78% vs. 55%). Bei VIBE-Pro — das die End-to-End-Projektlieferung statt isolierter Patches misst — erzielt M2.7 55,6%, was reale Engineering-Fähigkeiten jenseits benchmark-spezifischer Optimierung demonstriert.

Professionelle Produktivität

BenchmarkM2.7Bester Mitbewerber
GDPval-AA (Office-Aufgaben)ELO 1495Höchster unter Open-Source-Modellen
Skill Adherence (40 komplexe Aufgaben)97%
MM Claw (Agenten-Evaluierung)62,7%Annähernd an Sonnet 4.6

M2.7s ELO-Score von 1495 auf GDPval-AA — das reale Office-Produktivitätsaufgaben über Excel, PowerPoint, Word und komplexe Dokumentenbearbeitung evaluiert — ist der höchste unter allen Open-Source-Modellen. Die 97%ige Skill-Adherence-Rate bei über 40 komplexen Aufgaben (jede mit mehr als 2.000 Tokens) demonstriert zuverlässige Ausführung bei den anspruchsvollen, mehrstufigen Arbeitsabläufen, an denen die meisten Modelle scheitern.

Machine-Learning-Forschung

BenchmarkM2.7Gemini 3.1GPT-5.4
MLE-Bench Lite (Medaillenrate)66,6%66,6%71,2%

M2.7 ist gleichauf mit Googles Gemini 3.1 und nähert sich GPT-5.4s State-of-the-Art bei Machine-Learning-Wettbewerbs-Benchmarks — ein bemerkenswertes Ergebnis für ein Modell mit nur 10 Milliarden aktivierten Parametern.

Geschwindigkeit und Preisgestaltung: Die echte Disruption

Rohe Benchmark-Ergebnisse erzählen eine Geschichte. Kostenbereinigte Leistung erzählt eine völlig andere.

MetrikM2.7Claude Opus 4.6GPT-5
Geschwindigkeit100 TPS~33 TPS~40 TPS
Eingabekosten$0,30/M Tokens$15/M Tokens$10/M Tokens
Ausgabekosten$1,20/M Tokens$75/M Tokens$30/M Tokens
Gemischte Kosten (mit Cache)$0,06/M Tokens
Aktivierte Parameter10 Mrd.

M2.7 ist 50x günstiger als Opus bei der Eingabe und 60x günstiger bei der Ausgabe — während es ihn bei SWE-Pro erreicht. Mit 100 Tokens pro Sekunde ist es zudem 3x schneller. Mit automatischer Cache-Optimierung sinken die effektiven gemischten Kosten auf nur $0,06 pro Million Tokens.

Für Teams, die hochvolumige Agenten-Workloads, Coding-Assistenten oder Dokumentenverarbeitungs-Pipelines betreiben, verändert diese Kostenstruktur die Wirtschaftlichkeit des Machbaren.

Kernfähigkeiten

Agentenzentrierte Workflows

M2.7 ist von Grund auf für agentische Anwendungsfälle konzipiert. Das OpenClaw-Framework ermöglicht:

  • Kontinuierliche Selbstverbesserung in realen Umgebungen
  • Multi-Agenten-Kollaboration mit nativen Fähigkeiten in Rollengrenzen, adversarialem Reasoning und Protokolleinhaltung
  • Aktive Teilnahme an Ausführung und Entscheidungsfindung statt passiver Antwortgenerierung
  • Komplexe Umgebungsinteraktion mit 97%iger Skill-Adherence bei anspruchsvollen mehrstufigen Aufgaben

Software Engineering

Über Benchmarks hinaus bewältigt M2.7 reale Engineering-Workflows:

  • End-to-End-Projektlieferung (nicht nur isolierte Code-Patches)
  • Log-Analyse und Debugging
  • Code-Sicherheitsüberprüfung
  • Entwicklung von Machine-Learning-Pipelines

Office-Suite-Exzellenz

Erweiterte Fähigkeiten für professionelle Produktivität:

  • Komplexe Excel-Operationen und Formelgenerierung
  • Erstellung und Bearbeitung von PowerPoint-Präsentationen
  • Manipulation von Word-Dokumenten
  • Unterstützung für mehrstufige Modifikationen — Dokumente durch Konversation iterieren

Charakter und emotionale Intelligenz

M2.7 enthält erweiterte Fähigkeiten zur Identitätserhaltung und emotionalen Intelligenz und bietet eine Grundlage für interaktive Unterhaltung, Rollenspiele und charaktergetriebene Anwendungen.

Zwei API-Varianten

VarianteGeschwindigkeitQualitätAnwendungsfall
M2.7StandardVolle QualitätProduktion, komplexe Aufgaben
M2.7-highspeedSchnellerIdentische ErgebnisseHoher Durchsatz, latenzempfindlich

Beide Varianten liefern identische Ergebnisse — die Highspeed-Variante verarbeitet lediglich schneller für latenzempfindliche Anwendungen.

Kompatibilität mit Entwicklerwerkzeugen

M2.7 integriert sich in die Werkzeuge, die Entwickler bereits nutzen:

  • KI-Coding: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
  • Agenten: OpenCode, Droid, TRAE, Grok CLI
  • Plattformen: MiniMax Agent, MiniMax API Platform

OpenRoom: Interaktive Agenten-Demo

MiniMax hat auch OpenRoom als Open Source veröffentlicht — eine interaktive Agenten-Demonstration, die KI-Interaktion über reinen Text hinaus in grafische Umgebungen bringt. Der Großteil des Codes wurde von KI generiert, was M2.7s praktische Coding-Fähigkeiten demonstriert.

M2.7 vs. die Konkurrenz: Wer sollte was verwenden

Wenn Sie brauchen…Beste Wahl
Maximale Benchmark-Obergrenze unabhängig von den KostenClaude Opus 4.6
Beste kostenbereinigte Coding-LeistungMiniMax M2.7
Schnellste InferenzgeschwindigkeitMiniMax M2.7 (100 TPS)
Hochvolumige Agenten-WorkloadsMiniMax M2.7 (50x günstiger)
Office-ProduktivitätsautomatisierungMiniMax M2.7 (höchster GDPval-AA ELO)
Etabliertes Ökosystem und IntegrationenClaude oder GPT
Selbstverbessernde AgentenfähigkeitenMiniMax M2.7 (OpenClaw)

M2.7 auf WaveSpeedAI ausprobieren

WaveSpeedAI bietet Zugang zu MiniMax M2.7 neben Hunderten anderer KI-Modelle über eine einheitliche Plattform. Ob Sie Coding-Agenten, Dokumentenverarbeitungs-Pipelines oder interaktive Anwendungen entwickeln — M2.7s Kombination aus Tier-1-Leistung und einem Bruchteil des üblichen Preises macht es zur effizientesten Wahl für Produktions-Workloads.

MiniMax M2.7 auf WaveSpeedAI ausprobieren →

Keine Abonnements. Keine Kaltstart-Verzögerungen. Zahlen Sie nur für das, was Sie nutzen.

Das Fazit

MiniMax M2.7 ist nicht nur eine weitere Modellveröffentlichung — es ist ein Proof of Concept für selbstevolvierende KI. Ein Modell mit nur 10 Milliarden aktivierten Parametern, das Opus und GPT-5 bei den schwersten Engineering-Benchmarks erreicht und dabei 3x schneller bei 50x niedrigeren Kosten läuft, stellt genau die Art von Disruption dar, die neu gestaltet, wie Teams mit KI entwickeln.

Die Frage ist nicht, ob M2.7 gut genug ist. Die Frage ist, ob Sie es rechtfertigen können, 50x mehr für marginale Gewinne zu zahlen.