MiniMax M2.7: O Modelo de IA Auto-Evolutivo que Rivaliza com Claude e GPT a uma Fração do Custo
MiniMax M2.7 é um modelo de texto de próxima geração com capacidades de auto-aprimoramento, 56,22% no SWE-Pro, velocidade de 100 TPS e $0,30/M de tokens de entrada. Compare M2.7 vs Claude Opus 4.6, GPT-5 e Gemini 3.1 em benchmarks, preços e capacidades de agentes.
MiniMax M2.7: Um Modelo Auto-Evolutivo que Reescreve as Regras dos Agentes de IA
O que acontece quando você permite que um modelo de IA participe da sua própria evolução? A MiniMax acabou de responder a essa pergunta com o M2.7 — um modelo de texto flagship de próxima geração que não apenas executa tarefas, mas se aprimora ativamente por meio de interação com o mundo real. Construído sobre o framework OpenClaw (Agent Harness), o M2.7 executou autonomamente mais de 100 rodadas de otimização de scaffold durante o treinamento, alcançando uma melhoria de desempenho de 30% nas avaliações internas — sem intervenção humana.
O resultado é um modelo que iguala ou se aproxima do Claude Opus 4.6 e do GPT-5 nos benchmarks mais difíceis de codificação e agentes, roda 3x mais rápido e custa uma fração do preço. Aqui está tudo o que você precisa saber.
O Que Torna o M2.7 Diferente: Auto-Aprimoramento
A maioria dos modelos de IA é treinada, avaliada e implantada como artefatos estáticos. O M2.7 quebra esse padrão. É o primeiro modelo da MiniMax que participa profundamente da sua própria evolução — envolvido na atualização de sua própria memória, no desenvolvimento de habilidades de treinamento e na melhoria do seu próprio processo de aprendizado.
Durante o desenvolvimento, o M2.7 de forma autônoma:
- Executou mais de 100 ciclos de iteração otimizando o desempenho do seu próprio scaffold
- Gerenciou 30–50% dos fluxos de trabalho de pesquisa em aprendizado por reforço de forma independente
- Participou de 22 competições de ML, alcançando 9 medalhas de ouro nas melhores tentativas
- Alcançou uma taxa de medalha de 66,6% no MLE-Bench Lite, empatando com o Gemini 3.1 do Google
Isso não é apenas uma técnica de treinamento — é um sinal de para onde o desenvolvimento de IA está caminhando. Modelos capazes de avaliar e melhorar seu próprio desempenho representam um paradigma fundamentalmente diferente dos ciclos estáticos de treinar e implantar.
Desempenho em Benchmarks: Superando Muito Além do Esperado
O M2.7 ativa apenas 10 bilhões de parâmetros — tornando-o o menor modelo na classe de desempenho Tier-1. Apesar dessa eficiência, ele compete diretamente com modelos de ordens de magnitude maiores.
Engenharia de Software
| Benchmark | M2.7 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|
| SWE-Pro | 56,22% | ~57% | 56,2% |
| SWE-bench Verified | 78% | 55% | — |
| VIBE-Pro (entrega ponta a ponta) | 55,6% | — | — |
| Terminal Bench 2 | 57,0% | — | — |
O M2.7 quase iguala o Opus no SWE-Pro e supera significativamente no SWE-bench Verified (78% vs 55%). No VIBE-Pro — que mede a entrega de projetos ponta a ponta em vez de patches isolados — o M2.7 pontua 55,6%, demonstrando capacidade de engenharia no mundo real além da otimização específica para benchmarks.
Produtividade Profissional
| Benchmark | M2.7 | Melhor Competidor |
|---|---|---|
| GDPval-AA (tarefas de escritório) | ELO 1495 | O mais alto entre modelos open-source |
| Aderência a habilidades (40 tarefas complexas) | 97% | — |
| MM Claw (avaliação de agentes) | 62,7% | Aproximando-se do Sonnet 4.6 |
A pontuação ELO de 1495 do M2.7 no GDPval-AA — que avalia tarefas de produtividade no escritório no mundo real em Excel, PowerPoint, Word e edição complexa de documentos — é a mais alta entre todos os modelos open-source. A taxa de aderência a habilidades de 97% em mais de 40 tarefas complexas (cada uma excedendo 2.000 tokens) demonstra execução confiável no tipo de fluxos de trabalho intrincados e multi-etapas que derrubam a maioria dos modelos.
Pesquisa em Machine Learning
| Benchmark | M2.7 | Gemini 3.1 | GPT-5.4 |
|---|---|---|---|
| MLE-Bench Lite (taxa de medalha) | 66,6% | 66,6% | 71,2% |
O M2.7 empata com o Gemini 3.1 do Google e se aproxima do estado da arte do GPT-5.4 em benchmarks de competição de machine learning — um resultado notável para um modelo com apenas 10B de parâmetros ativados.
Velocidade e Preço: A Verdadeira Disrupção
Pontuações brutas em benchmarks contam uma história. Desempenho ajustado ao custo conta uma completamente diferente.
| Métrica | M2.7 | Claude Opus 4.6 | GPT-5 |
|---|---|---|---|
| Velocidade | 100 TPS | ~33 TPS | ~40 TPS |
| Custo de entrada | $0,30/M tokens | $15/M tokens | $10/M tokens |
| Custo de saída | $1,20/M tokens | $75/M tokens | $30/M tokens |
| Custo combinado (com cache) | $0,06/M tokens | — | — |
| Parâmetros ativados | 10B | — | — |
O M2.7 é 50x mais barato que o Opus na entrada e 60x mais barato na saída — enquanto o iguala no SWE-Pro. A 100 tokens por segundo, também é 3x mais rápido. Com otimização automática de cache, o custo combinado efetivo cai para apenas $0,06 por milhão de tokens.
Para equipes que executam cargas de trabalho de agentes em alto volume, assistentes de codificação ou pipelines de processamento de documentos, essa estrutura de custos muda a economia do que é viável.
Capacidades Principais
Fluxos de Trabalho Centrados em Agentes
O M2.7 é construído do zero para casos de uso agênticos. O framework OpenClaw permite:
- Auto-aprimoramento contínuo em ambientes do mundo real
- Colaboração multi-agente com capacidades nativas em limites de função, raciocínio adversarial e aderência a protocolos
- Participação ativa na execução e tomada de decisões em vez de geração passiva de respostas
- Interação com ambientes complexos com 97% de aderência a habilidades em tarefas multi-etapas intrincadas
Engenharia de Software
Além dos benchmarks, o M2.7 lida com fluxos de trabalho de engenharia do mundo real:
- Entrega de projetos ponta a ponta (não apenas patches de código isolados)
- Análise de logs e depuração
- Revisão de segurança de código
- Desenvolvimento de pipeline de machine learning
Excelência em Suíte de Escritório
Capacidades aprimoradas para produtividade profissional:
- Operações complexas no Excel e geração de fórmulas
- Criação e edição no PowerPoint
- Manipulação de documentos Word
- Suporte a modificações em múltiplos turnos — itere em documentos através de conversas
Inteligência de Personagem e Emocional
O M2.7 inclui capacidades aprimoradas de preservação de identidade e inteligência emocional, fornecendo uma base para entretenimento interativo, roleplay e aplicações orientadas a personagens.
Duas Variantes de API
| Variante | Velocidade | Qualidade | Caso de Uso |
|---|---|---|---|
| M2.7 | Padrão | Qualidade completa | Produção, tarefas complexas |
| M2.7-highspeed | Mais rápido | Resultados idênticos | Alto throughput, sensível à latência |
Ambas as variantes produzem resultados idênticos — a variante highspeed simplesmente processa mais rápido para aplicações sensíveis à latência.
Compatibilidade com Ferramentas de Desenvolvimento
O M2.7 se integra às ferramentas que os desenvolvedores já usam:
- Codificação com IA: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
- Agentes: OpenCode, Droid, TRAE, Grok CLI
- Plataformas: MiniMax Agent, MiniMax API Platform
OpenRoom: Demo Interativa de Agente
A MiniMax também disponibilizou como open-source o OpenRoom — uma demonstração interativa de agente que leva a interação com IA além do texto simples para ambientes gráficos. A maior parte do código foi gerada por IA, demonstrando as capacidades práticas de codificação do M2.7.
- Repositório: github.com/MiniMax-AI/OpenRoom
- Demo ao Vivo: openroom.ai
M2.7 vs a Concorrência: Quem Deve Usar o Quê
| Se você precisa de… | Melhor escolha |
|---|---|
| Teto máximo de benchmark independentemente do custo | Claude Opus 4.6 |
| Melhor desempenho de codificação ajustado ao custo | MiniMax M2.7 |
| Velocidade de inferência mais rápida | MiniMax M2.7 (100 TPS) |
| Cargas de trabalho de agentes em alto volume | MiniMax M2.7 (50x mais barato) |
| Automação de produtividade no escritório | MiniMax M2.7 (maior ELO no GDPval-AA) |
| Ecossistema e integrações estabelecidos | Claude ou GPT |
| Capacidades de agente auto-evolutivo | MiniMax M2.7 (OpenClaw) |
Experimente o M2.7 no WaveSpeedAI
O WaveSpeedAI fornece acesso ao MiniMax M2.7 junto com centenas de outros modelos de IA através de uma plataforma unificada. Seja construindo agentes de codificação, pipelines de processamento de documentos ou aplicações interativas, a combinação do M2.7 de desempenho Tier-1 e preço em uma fração do custo o torna a escolha mais eficiente para cargas de trabalho em produção.
Experimente o MiniMax M2.7 no WaveSpeedAI →
Sem assinaturas. Sem cold starts. Pague apenas pelo que usar.
A Conclusão Final
O MiniMax M2.7 não é apenas mais um lançamento de modelo — é uma prova de conceito para IA auto-evolutiva. Um modelo com apenas 10B de parâmetros ativados igualando Opus e GPT-5 nos benchmarks de engenharia mais difíceis, enquanto roda 3x mais rápido a um custo 50x menor, representa exatamente o tipo de disrupção que reformula a forma como as equipes constroem com IA.
A questão não é se o M2.7 é bom o suficiente. É se você consegue justificar pagar 50x mais por ganhos marginais.

