MiniMax M2.7: Das selbst-evolvierende KI-Modell, das Claude und GPT zu einem Bruchteil der Kosten übertrifft

MiniMax M2.7: Ein selbstevolvierendes Modell, das die Regeln von KI-Agenten neu schreibt

Was passiert, wenn man einem KI-Modell erlaubt, an seiner eigenen Evolution teilzunehmen? MiniMax hat diese Frage gerade mit M2.7 beantwortet — einem nextgenerationalen Flaggschiff-Textmodell, das Aufgaben nicht nur ausführt, sondern sich durch reale Interaktion aktiv selbst verbessert. Aufgebaut auf dem OpenClaw (Agent Harness) Framework, führte M2.7 während des Trainings autonom über 100 Runden der Scaffold-Optimierung durch und erzielte eine 30%ige Leistungsverbesserung bei internen Evaluierungen — ohne menschliches Eingreifen.

Das Ergebnis ist ein Modell, das Claude Opus 4.6 und GPT-5 bei den schwersten Coding- und Agenten-Benchmarks erreicht oder annähert, 3x schneller läuft und einen Bruchteil des Preises kostet. Hier ist alles, was Sie wissen müssen.

Was M2.7 anders macht: Selbstverbesserung

Die meisten KI-Modelle werden trainiert, evaluiert und als statische Artefakte eingesetzt. M2.7 bricht dieses Muster. Es ist MiniMaxs erstes Modell, das tief an seiner eigenen Evolution teilnimmt — beteiligt an der Aktualisierung seines eigenen Gedächtnisses, dem Aufbau von Trainingsfähigkeiten und der Verbesserung seines eigenen Lernprozesses.

Während der Entwicklung hat M2.7 autonom:

100+ Iterationszyklen zur Optimierung seiner eigenen Scaffold-Leistung ausgeführt
30–50% der Reinforcement-Learning-Forschungsabläufe eigenständig verwaltet
An 22 ML-Wettbewerben teilgenommen und dabei 9 Goldmedaillen in besten Durchläufen erzielt
Eine Medaillenrate von 66,6% auf MLE-Bench Lite erreicht, gleichauf mit Googles Gemini 3.1

Das ist nicht nur eine Trainingstechnik — es ist ein Signal, wohin sich die KI-Entwicklung bewegt. Modelle, die ihre eigene Leistung evaluieren und verbessern können, repräsentieren ein grundlegend anderes Paradigma als statische Train-and-Deploy-Zyklen.

Benchmark-Leistung: Weit über dem Gewicht kämpfen

M2.7 aktiviert nur 10 Milliarden Parameter — was es zum kleinsten Modell in der Tier-1-Leistungsklasse macht. Trotz dieser Effizienz konkurriert es direkt mit Modellen, die um Größenordnungen größer sind.

Software Engineering

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56,22%	~57%	56,2%
SWE-bench Verified	78%	55%	—
VIBE-Pro (End-to-End-Lieferung)	55,6%	—	—
Terminal Bench 2	57,0%	—	—

M2.7 erreicht Opus auf SWE-Pro nahezu und übertrifft es deutlich bei SWE-bench Verified (78% vs. 55%). Bei VIBE-Pro — das die End-to-End-Projektlieferung statt isolierter Patches misst — erzielt M2.7 55,6%, was reale Engineering-Fähigkeiten jenseits benchmark-spezifischer Optimierung demonstriert.

Professionelle Produktivität

Benchmark	M2.7	Bester Mitbewerber
GDPval-AA (Office-Aufgaben)	ELO 1495	Höchster unter Open-Source-Modellen
Skill Adherence (40 komplexe Aufgaben)	97%	—
MM Claw (Agenten-Evaluierung)	62,7%	Annähernd an Sonnet 4.6

M2.7s ELO-Score von 1495 auf GDPval-AA — das reale Office-Produktivitätsaufgaben über Excel, PowerPoint, Word und komplexe Dokumentenbearbeitung evaluiert — ist der höchste unter allen Open-Source-Modellen. Die 97%ige Skill-Adherence-Rate bei über 40 komplexen Aufgaben (jede mit mehr als 2.000 Tokens) demonstriert zuverlässige Ausführung bei den anspruchsvollen, mehrstufigen Arbeitsabläufen, an denen die meisten Modelle scheitern.

Machine-Learning-Forschung

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite (Medaillenrate)	66,6%	66,6%	71,2%

M2.7 ist gleichauf mit Googles Gemini 3.1 und nähert sich GPT-5.4s State-of-the-Art bei Machine-Learning-Wettbewerbs-Benchmarks — ein bemerkenswertes Ergebnis für ein Modell mit nur 10 Milliarden aktivierten Parametern.

Geschwindigkeit und Preisgestaltung: Die echte Disruption

Rohe Benchmark-Ergebnisse erzählen eine Geschichte. Kostenbereinigte Leistung erzählt eine völlig andere.

Metrik	M2.7	Claude Opus 4.6	GPT-5
Geschwindigkeit	100 TPS	~33 TPS	~40 TPS
Eingabekosten	$0,30/M Tokens	$15/M Tokens	$10/M Tokens
Ausgabekosten	$1,20/M Tokens	$75/M Tokens	$30/M Tokens
Gemischte Kosten (mit Cache)	$0,06/M Tokens	—	—
Aktivierte Parameter	10 Mrd.	—	—

M2.7 ist 50x günstiger als Opus bei der Eingabe und 60x günstiger bei der Ausgabe — während es ihn bei SWE-Pro erreicht. Mit 100 Tokens pro Sekunde ist es zudem 3x schneller. Mit automatischer Cache-Optimierung sinken die effektiven gemischten Kosten auf nur $0,06 pro Million Tokens.

Für Teams, die hochvolumige Agenten-Workloads, Coding-Assistenten oder Dokumentenverarbeitungs-Pipelines betreiben, verändert diese Kostenstruktur die Wirtschaftlichkeit des Machbaren.

Kernfähigkeiten

Agentenzentrierte Workflows

M2.7 ist von Grund auf für agentische Anwendungsfälle konzipiert. Das OpenClaw-Framework ermöglicht:

Kontinuierliche Selbstverbesserung in realen Umgebungen
Multi-Agenten-Kollaboration mit nativen Fähigkeiten in Rollengrenzen, adversarialem Reasoning und Protokolleinhaltung
Aktive Teilnahme an Ausführung und Entscheidungsfindung statt passiver Antwortgenerierung
Komplexe Umgebungsinteraktion mit 97%iger Skill-Adherence bei anspruchsvollen mehrstufigen Aufgaben

Software Engineering

Über Benchmarks hinaus bewältigt M2.7 reale Engineering-Workflows:

End-to-End-Projektlieferung (nicht nur isolierte Code-Patches)
Log-Analyse und Debugging
Code-Sicherheitsüberprüfung
Entwicklung von Machine-Learning-Pipelines

Office-Suite-Exzellenz

Erweiterte Fähigkeiten für professionelle Produktivität:

Komplexe Excel-Operationen und Formelgenerierung
Erstellung und Bearbeitung von PowerPoint-Präsentationen
Manipulation von Word-Dokumenten
Unterstützung für mehrstufige Modifikationen — Dokumente durch Konversation iterieren

Charakter und emotionale Intelligenz

M2.7 enthält erweiterte Fähigkeiten zur Identitätserhaltung und emotionalen Intelligenz und bietet eine Grundlage für interaktive Unterhaltung, Rollenspiele und charaktergetriebene Anwendungen.

Zwei API-Varianten

Variante	Geschwindigkeit	Qualität	Anwendungsfall
M2.7	Standard	Volle Qualität	Produktion, komplexe Aufgaben
M2.7-highspeed	Schneller	Identische Ergebnisse	Hoher Durchsatz, latenzempfindlich

Beide Varianten liefern identische Ergebnisse — die Highspeed-Variante verarbeitet lediglich schneller für latenzempfindliche Anwendungen.

Kompatibilität mit Entwicklerwerkzeugen

M2.7 integriert sich in die Werkzeuge, die Entwickler bereits nutzen:

KI-Coding: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
Agenten: OpenCode, Droid, TRAE, Grok CLI
Plattformen: MiniMax Agent, MiniMax API Platform

OpenRoom: Interaktive Agenten-Demo

MiniMax hat auch OpenRoom als Open Source veröffentlicht — eine interaktive Agenten-Demonstration, die KI-Interaktion über reinen Text hinaus in grafische Umgebungen bringt. Der Großteil des Codes wurde von KI generiert, was M2.7s praktische Coding-Fähigkeiten demonstriert.

Repository: github.com/MiniMax-AI/OpenRoom
Live-Demo: openroom.ai

M2.7 vs. die Konkurrenz: Wer sollte was verwenden

Wenn Sie brauchen…	Beste Wahl
Maximale Benchmark-Obergrenze unabhängig von den Kosten	Claude Opus 4.6
Beste kostenbereinigte Coding-Leistung	MiniMax M2.7
Schnellste Inferenzgeschwindigkeit	MiniMax M2.7 (100 TPS)
Hochvolumige Agenten-Workloads	MiniMax M2.7 (50x günstiger)
Office-Produktivitätsautomatisierung	MiniMax M2.7 (höchster GDPval-AA ELO)
Etabliertes Ökosystem und Integrationen	Claude oder GPT
Selbstverbessernde Agentenfähigkeiten	MiniMax M2.7 (OpenClaw)

M2.7 auf WaveSpeedAI ausprobieren

WaveSpeedAI bietet Zugang zu MiniMax M2.7 neben Hunderten anderer KI-Modelle über eine einheitliche Plattform. Ob Sie Coding-Agenten, Dokumentenverarbeitungs-Pipelines oder interaktive Anwendungen entwickeln — M2.7s Kombination aus Tier-1-Leistung und einem Bruchteil des üblichen Preises macht es zur effizientesten Wahl für Produktions-Workloads.

MiniMax M2.7 auf WaveSpeedAI ausprobieren →

Keine Abonnements. Keine Kaltstart-Verzögerungen. Zahlen Sie nur für das, was Sie nutzen.

Das Fazit

MiniMax M2.7 ist nicht nur eine weitere Modellveröffentlichung — es ist ein Proof of Concept für selbstevolvierende KI. Ein Modell mit nur 10 Milliarden aktivierten Parametern, das Opus und GPT-5 bei den schwersten Engineering-Benchmarks erreicht und dabei 3x schneller bei 50x niedrigeren Kosten läuft, stellt genau die Art von Disruption dar, die neu gestaltet, wie Teams mit KI entwickeln.

Die Frage ist nicht, ob M2.7 gut genug ist. Die Frage ist, ob Sie es rechtfertigen können, 50x mehr für marginale Gewinne zu zahlen.

MiniMax M2.7: Ein selbstevolvierendes Modell, das die Regeln von KI-Agenten neu schreibt

Was M2.7 anders macht: Selbstverbesserung

Benchmark-Leistung: Weit über dem Gewicht kämpfen

Software Engineering

Professionelle Produktivität

Machine-Learning-Forschung

Geschwindigkeit und Preisgestaltung: Die echte Disruption

Kernfähigkeiten

Agentenzentrierte Workflows

Software Engineering

Office-Suite-Exzellenz

Charakter und emotionale Intelligenz

Zwei API-Varianten

Kompatibilität mit Entwicklerwerkzeugen

OpenRoom: Interaktive Agenten-Demo

M2.7 vs. die Konkurrenz: Wer sollte was verwenden

M2.7 auf WaveSpeedAI ausprobieren

Das Fazit

Verwandte Artikel

PixVerse V6 Extend jetzt auf WaveSpeedAI

PixVerse V6 Image-to-Video jetzt auf WaveSpeedAI

PixVerse V6 Text-to-Video auf WaveSpeedAI vorgestellt

PixVerse V6 Transition auf WaveSpeedAI

GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: So schlägt sich Zhipu AIs neuestes Modell im Vergleich

Phota Edit auf WaveSpeedAI vorgestellt