MiniMax M2.7: O Modelo de IA Auto-Evolutivo que Rivaliza com Claude e GPT a uma Fração do Custo

MiniMax M2.7: Um Modelo Auto-Evolutivo que Reescreve as Regras dos Agentes de IA

O que acontece quando você permite que um modelo de IA participe da sua própria evolução? A MiniMax acabou de responder a essa pergunta com o M2.7 — um modelo de texto flagship de próxima geração que não apenas executa tarefas, mas se aprimora ativamente por meio de interação com o mundo real. Construído sobre o framework OpenClaw (Agent Harness), o M2.7 executou autonomamente mais de 100 rodadas de otimização de scaffold durante o treinamento, alcançando uma melhoria de desempenho de 30% nas avaliações internas — sem intervenção humana.

O resultado é um modelo que iguala ou se aproxima do Claude Opus 4.6 e do GPT-5 nos benchmarks mais difíceis de codificação e agentes, roda 3x mais rápido e custa uma fração do preço. Aqui está tudo o que você precisa saber.

O Que Torna o M2.7 Diferente: Auto-Aprimoramento

A maioria dos modelos de IA é treinada, avaliada e implantada como artefatos estáticos. O M2.7 quebra esse padrão. É o primeiro modelo da MiniMax que participa profundamente da sua própria evolução — envolvido na atualização de sua própria memória, no desenvolvimento de habilidades de treinamento e na melhoria do seu próprio processo de aprendizado.

Durante o desenvolvimento, o M2.7 de forma autônoma:

Executou mais de 100 ciclos de iteração otimizando o desempenho do seu próprio scaffold
Gerenciou 30–50% dos fluxos de trabalho de pesquisa em aprendizado por reforço de forma independente
Participou de 22 competições de ML, alcançando 9 medalhas de ouro nas melhores tentativas
Alcançou uma taxa de medalha de 66,6% no MLE-Bench Lite, empatando com o Gemini 3.1 do Google

Isso não é apenas uma técnica de treinamento — é um sinal de para onde o desenvolvimento de IA está caminhando. Modelos capazes de avaliar e melhorar seu próprio desempenho representam um paradigma fundamentalmente diferente dos ciclos estáticos de treinar e implantar.

Desempenho em Benchmarks: Superando Muito Além do Esperado

O M2.7 ativa apenas 10 bilhões de parâmetros — tornando-o o menor modelo na classe de desempenho Tier-1. Apesar dessa eficiência, ele compete diretamente com modelos de ordens de magnitude maiores.

Engenharia de Software

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56,22%	~57%	56,2%
SWE-bench Verified	78%	55%	—
VIBE-Pro (entrega ponta a ponta)	55,6%	—	—
Terminal Bench 2	57,0%	—	—

O M2.7 quase iguala o Opus no SWE-Pro e supera significativamente no SWE-bench Verified (78% vs 55%). No VIBE-Pro — que mede a entrega de projetos ponta a ponta em vez de patches isolados — o M2.7 pontua 55,6%, demonstrando capacidade de engenharia no mundo real além da otimização específica para benchmarks.

Produtividade Profissional

Benchmark	M2.7	Melhor Competidor
GDPval-AA (tarefas de escritório)	ELO 1495	O mais alto entre modelos open-source
Aderência a habilidades (40 tarefas complexas)	97%	—
MM Claw (avaliação de agentes)	62,7%	Aproximando-se do Sonnet 4.6

A pontuação ELO de 1495 do M2.7 no GDPval-AA — que avalia tarefas de produtividade no escritório no mundo real em Excel, PowerPoint, Word e edição complexa de documentos — é a mais alta entre todos os modelos open-source. A taxa de aderência a habilidades de 97% em mais de 40 tarefas complexas (cada uma excedendo 2.000 tokens) demonstra execução confiável no tipo de fluxos de trabalho intrincados e multi-etapas que derrubam a maioria dos modelos.

Pesquisa em Machine Learning

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite (taxa de medalha)	66,6%	66,6%	71,2%

O M2.7 empata com o Gemini 3.1 do Google e se aproxima do estado da arte do GPT-5.4 em benchmarks de competição de machine learning — um resultado notável para um modelo com apenas 10B de parâmetros ativados.

Velocidade e Preço: A Verdadeira Disrupção

Pontuações brutas em benchmarks contam uma história. Desempenho ajustado ao custo conta uma completamente diferente.

Métrica	M2.7	Claude Opus 4.6	GPT-5
Velocidade	100 TPS	~33 TPS	~40 TPS
Custo de entrada	$0,30/M tokens	$15/M tokens	$10/M tokens
Custo de saída	$1,20/M tokens	$75/M tokens	$30/M tokens
Custo combinado (com cache)	$0,06/M tokens	—	—
Parâmetros ativados	10B	—	—

O M2.7 é 50x mais barato que o Opus na entrada e 60x mais barato na saída — enquanto o iguala no SWE-Pro. A 100 tokens por segundo, também é 3x mais rápido. Com otimização automática de cache, o custo combinado efetivo cai para apenas $0,06 por milhão de tokens.

Para equipes que executam cargas de trabalho de agentes em alto volume, assistentes de codificação ou pipelines de processamento de documentos, essa estrutura de custos muda a economia do que é viável.

Capacidades Principais

Fluxos de Trabalho Centrados em Agentes

O M2.7 é construído do zero para casos de uso agênticos. O framework OpenClaw permite:

Auto-aprimoramento contínuo em ambientes do mundo real
Colaboração multi-agente com capacidades nativas em limites de função, raciocínio adversarial e aderência a protocolos
Participação ativa na execução e tomada de decisões em vez de geração passiva de respostas
Interação com ambientes complexos com 97% de aderência a habilidades em tarefas multi-etapas intrincadas

Engenharia de Software

Além dos benchmarks, o M2.7 lida com fluxos de trabalho de engenharia do mundo real:

Entrega de projetos ponta a ponta (não apenas patches de código isolados)
Análise de logs e depuração
Revisão de segurança de código
Desenvolvimento de pipeline de machine learning

Excelência em Suíte de Escritório

Capacidades aprimoradas para produtividade profissional:

Operações complexas no Excel e geração de fórmulas
Criação e edição no PowerPoint
Manipulação de documentos Word
Suporte a modificações em múltiplos turnos — itere em documentos através de conversas

Inteligência de Personagem e Emocional

O M2.7 inclui capacidades aprimoradas de preservação de identidade e inteligência emocional, fornecendo uma base para entretenimento interativo, roleplay e aplicações orientadas a personagens.

Duas Variantes de API

Variante	Velocidade	Qualidade	Caso de Uso
M2.7	Padrão	Qualidade completa	Produção, tarefas complexas
M2.7-highspeed	Mais rápido	Resultados idênticos	Alto throughput, sensível à latência

Ambas as variantes produzem resultados idênticos — a variante highspeed simplesmente processa mais rápido para aplicações sensíveis à latência.

Compatibilidade com Ferramentas de Desenvolvimento

O M2.7 se integra às ferramentas que os desenvolvedores já usam:

Codificação com IA: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
Agentes: OpenCode, Droid, TRAE, Grok CLI
Plataformas: MiniMax Agent, MiniMax API Platform

OpenRoom: Demo Interativa de Agente

A MiniMax também disponibilizou como open-source o OpenRoom — uma demonstração interativa de agente que leva a interação com IA além do texto simples para ambientes gráficos. A maior parte do código foi gerada por IA, demonstrando as capacidades práticas de codificação do M2.7.

Repositório: github.com/MiniMax-AI/OpenRoom
Demo ao Vivo: openroom.ai

M2.7 vs a Concorrência: Quem Deve Usar o Quê

Se você precisa de…	Melhor escolha
Teto máximo de benchmark independentemente do custo	Claude Opus 4.6
Melhor desempenho de codificação ajustado ao custo	MiniMax M2.7
Velocidade de inferência mais rápida	MiniMax M2.7 (100 TPS)
Cargas de trabalho de agentes em alto volume	MiniMax M2.7 (50x mais barato)
Automação de produtividade no escritório	MiniMax M2.7 (maior ELO no GDPval-AA)
Ecossistema e integrações estabelecidos	Claude ou GPT
Capacidades de agente auto-evolutivo	MiniMax M2.7 (OpenClaw)

Experimente o M2.7 no WaveSpeedAI

O WaveSpeedAI fornece acesso ao MiniMax M2.7 junto com centenas de outros modelos de IA através de uma plataforma unificada. Seja construindo agentes de codificação, pipelines de processamento de documentos ou aplicações interativas, a combinação do M2.7 de desempenho Tier-1 e preço em uma fração do custo o torna a escolha mais eficiente para cargas de trabalho em produção.

Experimente o MiniMax M2.7 no WaveSpeedAI →

Sem assinaturas. Sem cold starts. Pague apenas pelo que usar.

A Conclusão Final

O MiniMax M2.7 não é apenas mais um lançamento de modelo — é uma prova de conceito para IA auto-evolutiva. Um modelo com apenas 10B de parâmetros ativados igualando Opus e GPT-5 nos benchmarks de engenharia mais difíceis, enquanto roda 3x mais rápido a um custo 50x menor, representa exatamente o tipo de disrupção que reformula a forma como as equipes constroem com IA.

A questão não é se o M2.7 é bom o suficiente. É se você consegue justificar pagar 50x mais por ganhos marginais.

MiniMax M2.7: Um Modelo Auto-Evolutivo que Reescreve as Regras dos Agentes de IA

O Que Torna o M2.7 Diferente: Auto-Aprimoramento

Desempenho em Benchmarks: Superando Muito Além do Esperado

Engenharia de Software

Produtividade Profissional

Pesquisa em Machine Learning

Velocidade e Preço: A Verdadeira Disrupção

Capacidades Principais

Fluxos de Trabalho Centrados em Agentes

Engenharia de Software

Excelência em Suíte de Escritório

Inteligência de Personagem e Emocional

Duas Variantes de API

Compatibilidade com Ferramentas de Desenvolvimento

OpenRoom: Demo Interativa de Agente

M2.7 vs a Concorrência: Quem Deve Usar o Quê

Experimente o M2.7 no WaveSpeedAI

A Conclusão Final

Artigos relacionados

Apresentando PixVerse V6 Extend no WaveSpeedAI

Apresentando o PixVerse V6 Image-to-Video no WaveSpeedAI

Apresentando PixVerse V6 Transition no WaveSpeedAI

Apresentando o PixVerse V6 Text-to-Video no WaveSpeedAI

GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: Como o Novo Modelo da Zhipu AI Se Compara

Apresentando o Phota Edit no WaveSpeedAI