← 博客

MiniMax M2.7:能与Claude和GPT媲美的自进化AI模型,价格仅为其一小部分

MiniMax M2.7是新一代旗舰文本模型,具备自我进化能力,SWE-Pro得分56.22%,速度达100 TPS,输入价格仅$0.30/百万tokens。从基准测试、定价和智能体能力等维度,全面对比M2.7与Claude Opus 4.6、GPT-5和Gemini 3.1。

2 min read

MiniMax M2.7:颠覆AI智能体规则的自我进化模型

当你让一个AI模型参与自身的进化时,会发生什么?MiniMax用 M2.7 回答了这个问题——这是一款新一代旗舰文本模型,不仅能执行任务,还能通过真实世界的交互主动提升自身能力。M2.7基于 OpenClaw(Agent Harness)框架 构建,在训练过程中自主完成了超过100轮的脚手架优化,在内部评估中实现了30%的性能提升——全程无需人工干预。

最终成果是一款在最难的编程和智能体基准测试上媲美甚至接近Claude Opus 4.6与GPT-5的模型,速度快3倍,价格仅为其几分之一。以下是你需要了解的一切。

M2.7的与众不同之处:自我提升

大多数AI模型经过训练、评估后作为静态产物部署。M2.7打破了这一模式。这是MiniMax首款深度参与自身进化的模型——参与更新自身记忆、构建训练技能,并改进自身学习过程。

在开发过程中,M2.7自主完成了以下工作:

  • 执行了100+次迭代循环,优化自身脚手架性能
  • 独立管理了30–50%的强化学习研究工作流
  • 参加了22场机器学习竞赛,在最佳尝试中斩获9枚金牌
  • 在MLE-Bench Lite上取得66.6%的奖牌率,与Google Gemini 3.1并列

这不仅仅是一种训练技术——它预示着AI发展的方向。能够评估并改进自身性能的模型,代表着与静态训练-部署循环根本不同的新范式。

基准测试表现:远超同级

M2.7仅激活100亿参数——是Tier-1性能级别中参数量最小的模型。尽管如此高效,它仍能与规模大出数量级的模型正面竞争。

软件工程

基准测试M2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56.22%~57%56.2%
SWE-bench Verified78%55%
VIBE-Pro(端到端交付)55.6%
Terminal Bench 257.0%

M2.7在SWE-Pro上几乎与Opus持平,在SWE-bench Verified上显著领先(78% vs 55%)。VIBE-Pro衡量的是端到端项目交付能力而非孤立的代码补丁,M2.7得分55.6%,展现出超越基准专项优化的真实工程能力。

专业效率

基准测试M2.7最佳竞争对手
GDPval-AA(办公任务)ELO 1495开源模型中最高
技能遵从率(40个复杂任务)97%
MM Claw(智能体评估)62.7%接近Sonnet 4.6

M2.7在GDPval-AA上取得ELO 1495的成绩——该测试评估跨Excel、PowerPoint、Word及复杂文档编辑的真实办公生产力任务——是所有开源模型中最高的。在40+个复杂任务(每个任务超过2000个token)上97%的技能遵从率,展示了在大多数模型难以应对的复杂多步骤工作流上的可靠执行能力。

机器学习研究

基准测试M2.7Gemini 3.1GPT-5.4
MLE-Bench Lite(奖牌率)66.6%66.6%71.2%

M2.7与Google Gemini 3.1并列,并接近GPT-5.4在机器学习竞赛基准上的最先进水平——对于一个仅激活100亿参数的模型而言,这一结果令人瞩目。

速度与价格:真正的颠覆所在

单看基准分数只是一个维度,而考量性价比则是完全不同的故事。

指标M2.7Claude Opus 4.6GPT-5
速度100 TPS~33 TPS~40 TPS
输入费用$0.30/百万token$15/百万token$10/百万token
输出费用$1.20/百万token$75/百万token$30/百万token
混合费用(含缓存)$0.06/百万token
激活参数量100亿

M2.7的输入成本比Opus低50倍,输出成本低60倍——同时在SWE-Pro上与之持平。以每秒100个token的速度,其速度也快3倍。通过自动缓存优化,有效混合成本仅降至每百万token $0.06。

对于运行高并发智能体工作负载、编程助手或文档处理流水线的团队,这一成本结构从根本上改变了可行性的经济逻辑。

核心能力

以智能体为中心的工作流

M2.7从底层开始就为智能体应用场景而构建。OpenClaw框架支持:

  • 在真实世界环境中持续自我提升
  • 多智能体协作,原生支持角色边界界定、对抗性推理和协议遵从
  • 主动参与执行和决策制定,而非被动生成回复
  • 复杂环境交互,在精密多步骤任务上实现97%的技能遵从率

软件工程

超越基准测试,M2.7能处理真实世界的工程工作流:

  • 端到端项目交付(而非仅限于孤立的代码补丁)
  • 日志分析与调试
  • 代码安全审查
  • 机器学习流水线开发

办公套件卓越表现

为专业生产力增强的能力:

  • 复杂Excel操作与公式生成
  • PowerPoint创建与编辑
  • Word文档处理
  • 多轮修改支持——通过对话迭代文档

角色扮演与情感智能

M2.7包含增强的身份保持和情感智能能力,为互动娱乐、角色扮演及角色驱动应用提供基础支撑。

两种API变体

变体速度质量适用场景
M2.7标准完整质量生产环境、复杂任务
M2.7-highspeed更快结果相同高吞吐量、延迟敏感场景

两种变体产生完全相同的结果——highspeed变体仅针对延迟敏感应用进行了更快处理。

开发者工具兼容性

M2.7可与开发者已在使用的工具集成:

  • AI编程:Claude Code、Cursor、Cline、Codex CLI、Roo Code、Kilo Code
  • 智能体:OpenCode、Droid、TRAE、Grok CLI
  • 平台:MiniMax Agent、MiniMax API平台

OpenRoom:交互式智能体演示

MiniMax还开源了 OpenRoom——一个交互式智能体演示,将AI交互从纯文本扩展到图形化环境。其中大部分代码由AI生成,展示了M2.7的实际编程能力。

M2.7与竞品对比:谁该选什么

如果你需要……最佳选择
不计成本的最高基准上限Claude Opus 4.6
最佳性价比编程性能MiniMax M2.7
最快推理速度MiniMax M2.7(100 TPS)
高并发智能体工作负载MiniMax M2.7(低50倍)
办公生产力自动化MiniMax M2.7(GDPval-AA ELO最高)
成熟的生态系统与集成Claude 或 GPT
自我进化的智能体能力MiniMax M2.7(OpenClaw)

在WaveSpeedAI上体验M2.7

WaveSpeedAI通过统一平台提供对MiniMax M2.7及数百种其他AI模型的访问。无论你是在构建编程智能体、文档处理流水线还是交互式应用,M2.7将Tier-1性能与极低价格相结合,使其成为生产工作负载中最高效的选择。

在WaveSpeedAI上体验MiniMax M2.7 →

无需订阅。无冷启动。按量付费。

总结

MiniMax M2.7不仅仅是又一次模型发布——它是自我进化AI的概念验证。一个仅激活100亿参数的模型,在最难的工程基准测试上媲美Opus和GPT-5,同时速度快3倍、成本低50倍,代表着正在重塑团队使用AI方式的那种颠覆性变革。

问题不在于M2.7是否足够好,而在于你是否能为微小的性能提升支付50倍的溢价。