MiniMax M2.7: El Modelo de IA Autoevolutivo que Rivaliza con Claude y GPT a una Fracción del Costo

MiniMax M2.7: Un Modelo de Auto-Evolución que Reescribe las Reglas de los Agentes de IA

¿Qué ocurre cuando dejas que un modelo de IA participe en su propia evolución? MiniMax acaba de responder esa pregunta con M2.7 — un modelo de texto insignia de nueva generación que no solo ejecuta tareas, sino que se mejora activamente a través de la interacción con el mundo real. Construido sobre el framework OpenClaw (Agent Harness), M2.7 ejecutó de forma autónoma más de 100 rondas de optimización de scaffolding durante el entrenamiento, logrando una mejora del 30% en evaluaciones internas — sin intervención humana.

El resultado es un modelo que iguala o se aproxima a Claude Opus 4.6 y GPT-5 en los benchmarks de codificación y agentes más exigentes, funciona 3 veces más rápido y cuesta una fracción del precio. Aquí tienes todo lo que necesitas saber.

Qué Hace Diferente a M2.7: La Auto-Mejora

La mayoría de los modelos de IA se entrenan, evalúan y despliegan como artefactos estáticos. M2.7 rompe ese patrón. Es el primer modelo de MiniMax que participa profundamente en su propia evolución — involucrado en la actualización de su propia memoria, en la construcción de habilidades de entrenamiento y en la mejora de su propio proceso de aprendizaje.

Durante el desarrollo, M2.7 de forma autónoma:

Ejecutó más de 100 ciclos de iteración optimizando el rendimiento de su propio scaffold
Gestionó de forma independiente entre el 30 y el 50% de los flujos de trabajo de investigación en aprendizaje por refuerzo
Participó en 22 competiciones de ML, logrando 9 medallas de oro en los mejores ensayos
Alcanzó una tasa de medallas del 66,6% en MLE-Bench Lite, empatando con el Gemini 3.1 de Google

Esto no es solo una técnica de entrenamiento — es una señal de hacia dónde se dirige el desarrollo de la IA. Los modelos capaces de evaluar y mejorar su propio rendimiento representan un paradigma fundamentalmente diferente al de los ciclos estáticos de entrenamiento y despliegue.

Rendimiento en Benchmarks: Muy Por Encima de Su Categoría

M2.7 activa solo 10 mil millones de parámetros — lo que lo convierte en el modelo más pequeño en la clase de rendimiento de Nivel 1. A pesar de esta eficiencia, compite cara a cara con modelos órdenes de magnitud más grandes.

Ingeniería de Software

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56,22%	~57%	56,2%
SWE-bench Verified	78%	55%	—
VIBE-Pro (entrega de extremo a extremo)	55,6%	—	—
Terminal Bench 2	57,0%	—	—

M2.7 casi iguala a Opus en SWE-Pro y lo supera significativamente en SWE-bench Verified (78% frente a 55%). En VIBE-Pro — que mide la entrega de proyectos de extremo a extremo en lugar de parches aislados — M2.7 obtiene un 55,6%, demostrando capacidad de ingeniería en el mundo real más allá de la optimización específica para benchmarks.

Productividad Profesional

Benchmark	M2.7	Mejor Competidor
GDPval-AA (tareas de oficina)	ELO 1495	El más alto entre los modelos de código abierto
Adherencia a habilidades (40 tareas complejas)	97%	—
MM Claw (evaluación de agentes)	62,7%	Aproximándose a Sonnet 4.6

La puntuación ELO de 1495 de M2.7 en GDPval-AA — que evalúa tareas de productividad de oficina del mundo real en Excel, PowerPoint, Word y edición compleja de documentos — es la más alta entre todos los modelos de código abierto. La tasa de adherencia a habilidades del 97% en más de 40 tareas complejas (cada una superando los 2.000 tokens) demuestra una ejecución fiable en el tipo de flujos de trabajo intrincados y de múltiples pasos que hacen tropezar a la mayoría de los modelos.

Investigación en Aprendizaje Automático

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite (tasa de medallas)	66,6%	66,6%	71,2%

M2.7 empata con el Gemini 3.1 de Google y se aproxima al estado del arte de GPT-5.4 en benchmarks de competiciones de aprendizaje automático — un resultado notable para un modelo con solo 10B de parámetros activados.

Velocidad y Precios: La Verdadera Disrupción

Las puntuaciones brutas en benchmarks cuentan una historia. El rendimiento ajustado al coste cuenta una completamente diferente.

Métrica	M2.7	Claude Opus 4.6	GPT-5
Velocidad	100 TPS	~33 TPS	~40 TPS
Coste de entrada	$0,30/M tokens	$15/M tokens	$10/M tokens
Coste de salida	$1,20/M tokens	$75/M tokens	$30/M tokens
Coste combinado (con caché)	$0,06/M tokens	—	—
Parámetros activados	10B	—	—

M2.7 es 50 veces más barato que Opus en entrada y 60 veces más barato en salida — mientras lo iguala en SWE-Pro. A 100 tokens por segundo, también es 3 veces más rápido. Con la optimización automática de caché, el coste combinado efectivo se reduce a solo $0,06 por millón de tokens.

Para los equipos que ejecutan cargas de trabajo de agentes de alto volumen, asistentes de codificación o canalizaciones de procesamiento de documentos, esta estructura de costes cambia la economía de lo que es factible.

Capacidades Principales

Flujos de Trabajo Centrados en Agentes

M2.7 está construido desde cero para casos de uso agénticos. El framework OpenClaw permite:

Auto-mejora continua en entornos del mundo real
Colaboración multiagente con capacidades nativas en límites de roles, razonamiento adversarial y adherencia a protocolos
Participación activa en la ejecución y toma de decisiones en lugar de generación de respuestas pasiva
Interacción con entornos complejos con un 97% de adherencia a habilidades en tareas intrincadas de múltiples pasos

Ingeniería de Software

Más allá de los benchmarks, M2.7 maneja flujos de trabajo de ingeniería del mundo real:

Entrega de proyectos de extremo a extremo (no solo parches de código aislados)
Análisis de registros y depuración
Revisión de seguridad de código
Desarrollo de canalizaciones de aprendizaje automático

Excelencia en la Suite de Oficina

Capacidades mejoradas para la productividad profesional:

Operaciones complejas de Excel y generación de fórmulas
Creación y edición de presentaciones en PowerPoint
Manipulación de documentos Word
Soporte para modificaciones en múltiples turnos — itera sobre documentos a través de la conversación

Carácter e Inteligencia Emocional

M2.7 incluye capacidades mejoradas de preservación de identidad e inteligencia emocional, proporcionando una base para el entretenimiento interactivo, el juego de roles y las aplicaciones basadas en personajes.

Dos Variantes de API

Variante	Velocidad	Calidad	Caso de Uso
M2.7	Estándar	Calidad completa	Producción, tareas complejas
M2.7-highspeed	Más rápida	Resultados idénticos	Alto rendimiento, sensible a la latencia

Ambas variantes producen resultados idénticos — la variante highspeed simplemente procesa más rápido para aplicaciones sensibles a la latencia.

Compatibilidad con Herramientas para Desarrolladores

M2.7 se integra con las herramientas que los desarrolladores ya utilizan:

Codificación con IA: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
Agentes: OpenCode, Droid, TRAE, Grok CLI
Plataformas: MiniMax Agent, MiniMax API Platform

OpenRoom: Demo Interactiva de Agentes

MiniMax también lanzó como código abierto OpenRoom — una demostración interactiva de agentes que lleva la interacción con la IA más allá del texto plano hacia entornos gráficos. La mayor parte del código fue generado por IA, lo que demuestra las capacidades prácticas de codificación de M2.7.

Repositorio: github.com/MiniMax-AI/OpenRoom
Demo en vivo: openroom.ai

M2.7 vs la Competencia: Quién Debería Usar Qué

Si necesitas…	Mejor opción
Máximo techo en benchmarks independientemente del coste	Claude Opus 4.6
Mejor rendimiento de codificación ajustado al coste	MiniMax M2.7
Mayor velocidad de inferencia	MiniMax M2.7 (100 TPS)
Cargas de trabajo de agentes de alto volumen	MiniMax M2.7 (50x más barato)
Automatización de productividad de oficina	MiniMax M2.7 (mayor ELO en GDPval-AA)
Ecosistema e integraciones consolidados	Claude o GPT
Capacidades de agente con auto-mejora	MiniMax M2.7 (OpenClaw)

Prueba M2.7 en WaveSpeedAI

WaveSpeedAI proporciona acceso a MiniMax M2.7 junto con cientos de otros modelos de IA a través de una plataforma unificada. Ya sea que estés construyendo agentes de codificación, canalizaciones de procesamiento de documentos o aplicaciones interactivas, la combinación de rendimiento de Nivel 1 y precios de fracción del coste de M2.7 lo convierte en la opción más eficiente para cargas de trabajo en producción.

Prueba MiniMax M2.7 en WaveSpeedAI →

Sin suscripciones. Sin arranques en frío. Paga solo por lo que usas.

Conclusión

MiniMax M2.7 no es solo otro lanzamiento de modelo — es una prueba de concepto para la IA de auto-evolución. Un modelo con solo 10B de parámetros activados que iguala a Opus y GPT-5 en los benchmarks de ingeniería más exigentes, funcionando 3 veces más rápido a 50 veces menor coste, representa exactamente el tipo de disrupción que remodela cómo los equipos construyen con IA.

La pregunta no es si M2.7 es suficientemente bueno. Es si puedes justificar pagar 50 veces más por ganancias marginales.

MiniMax M2.7: Un Modelo de Auto-Evolución que Reescribe las Reglas de los Agentes de IA

Qué Hace Diferente a M2.7: La Auto-Mejora

Rendimiento en Benchmarks: Muy Por Encima de Su Categoría

Ingeniería de Software

Productividad Profesional

Investigación en Aprendizaje Automático

Velocidad y Precios: La Verdadera Disrupción

Capacidades Principales

Flujos de Trabajo Centrados en Agentes

Ingeniería de Software

Excelencia en la Suite de Oficina

Carácter e Inteligencia Emocional

Dos Variantes de API

Compatibilidad con Herramientas para Desarrolladores

OpenRoom: Demo Interactiva de Agentes

M2.7 vs la Competencia: Quién Debería Usar Qué

Prueba M2.7 en WaveSpeedAI

Conclusión

Artículos relacionados

Presentando PixVerse V6 Extend en WaveSpeedAI

Introduciendo PixVerse V6 de Imagen a Video en WaveSpeedAI

Presentamos PixVerse V6 Text-to-Video en WaveSpeedAI

Presentando PixVerse V6 Transition en WaveSpeedAI

GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: Cómo se compara el último modelo de Zhipu AI

Presentamos Phota Edit en WaveSpeedAI