MiniMax M2.7:能與Claude和GPT媲美的自我進化AI模型,成本僅需一小部分
MiniMax M2.7是新一代旗艦文字模型,具備自我改進能力,在SWE-Pro上達到56.22%,速度100 TPS,輸入費用僅$0.30/百萬token。比較M2.7與Claude Opus 4.6、GPT-5和Gemini 3.1在基準測試、定價及智能代理能力方面的表現。
MiniMax M2.7:重寫 AI 代理規則的自我進化模型
當你讓 AI 模型參與自身的進化時,會發生什麼?MiniMax 剛剛用 M2.7 給出了答案——這是一款新世代旗艦文字模型,它不只執行任務,更透過真實世界的互動主動改進自身。M2.7 基於 OpenClaw(Agent Harness)框架構建,在訓練期間自主執行了超過 100 輪架構優化,在無需人工干預的情況下,內部評估的性能提升了 30%。
最終成果是一款在最嚴苛的程式碼撰寫與代理基準測試中,能比肩甚至接近 Claude Opus 4.6 與 GPT-5 的模型——運行速度快 3 倍,成本卻僅為其零頭。以下是你需要了解的一切。
M2.7 的與眾不同之處:自我改進
大多數 AI 模型被訓練、評估後,就以靜態成品的形式部署。M2.7 打破了這個模式。它是 MiniMax 首款深度參與自身進化的模型——涉及更新自身記憶、建立訓練技能,以及改進自身學習過程。
在開發過程中,M2.7 自主完成了以下工作:
- 執行 100+ 次迭代循環,優化自身架構性能
- 獨立管理 30–50% 的強化學習研究工作流程
- 參與 22 項機器學習競賽,在最佳試驗中奪得 9 枚金牌
- 在 MLE-Bench Lite 上達到 66.6% 的獎牌率,與 Google 的 Gemini 3.1 並列
這不僅是一種訓練技術,更預示著 AI 發展的走向。能夠評估並提升自身性能的模型,代表著一種與靜態「訓練後部署」週期截然不同的全新範式。
基準測試表現:遠超預期
M2.7 僅啟動 100 億個參數——使其成為第一梯隊性能等級中最小的模型。儘管如此高效,它仍能與規模大出數個數量級的模型正面競爭。
軟體工程
| 基準測試 | M2.7 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|
| SWE-Pro | 56.22% | ~57% | 56.2% |
| SWE-bench Verified | 78% | 55% | — |
| VIBE-Pro(端到端交付) | 55.6% | — | — |
| Terminal Bench 2 | 57.0% | — | — |
M2.7 在 SWE-Pro 上幾乎與 Opus 持平,並在 SWE-bench Verified 上大幅領先(78% 對 55%)。VIBE-Pro 衡量的是端到端專案交付能力,而非孤立的程式碼修補——M2.7 得分 55.6%,展現出超越基準特定優化的真實工程能力。
專業生產力
| 基準測試 | M2.7 | 最佳競爭者 |
|---|---|---|
| GDPval-AA(辦公任務) | ELO 1495 | 所有開源模型中最高 |
| 技能執行率(40 項複雜任務) | 97% | — |
| MM Claw(代理評估) | 62.7% | 接近 Sonnet 4.6 |
M2.7 在 GDPval-AA 上的 ELO 評分為 1495——該測試評估 Excel、PowerPoint、Word 及複雜文件編輯等真實辦公生產力任務——是所有開源模型中最高的。在 40 多項複雜任務(每項超過 2,000 個 token)中達到 97% 的技能執行率,證明了其在複雜多步驟工作流程上的可靠執行能力,而這正是大多數模型的弱點。
機器學習研究
| 基準測試 | M2.7 | Gemini 3.1 | GPT-5.4 |
|---|---|---|---|
| MLE-Bench Lite(獎牌率) | 66.6% | 66.6% | 71.2% |
M2.7 與 Google 的 Gemini 3.1 並列,並接近 GPT-5.4 在機器學習競賽基準測試上的最先進水準——對於一個僅啟動 100 億參數的模型而言,這是一個驚人的成果。
速度與定價:真正的顛覆所在
原始基準分數只說明了故事的一面。成本調整後的性能,則呈現出截然不同的面貌。
| 指標 | M2.7 | Claude Opus 4.6 | GPT-5 |
|---|---|---|---|
| 速度 | 100 TPS | ~33 TPS | ~40 TPS |
| 輸入成本 | $0.30/百萬 token | $15/百萬 token | $10/百萬 token |
| 輸出成本 | $1.20/百萬 token | $75/百萬 token | $30/百萬 token |
| 混合成本(含快取) | $0.06/百萬 token | — | — |
| 啟動參數 | 100 億 | — | — |
M2.7 的輸入成本比 Opus 便宜 50 倍,輸出成本便宜 60 倍——同時在 SWE-Pro 上與其持平。以每秒 100 個 token 的速度,也快了 3 倍。透過自動快取優化,有效混合成本降至每百萬 token 僅 $0.06。
對於運行大量代理工作負載、程式碼輔助或文件處理流程的團隊來說,這樣的成本結構徹底改變了可行方案的經濟邏輯。
核心能力
以代理為中心的工作流程
M2.7 從底層開始就為代理使用場景而設計。OpenClaw 框架支援:
- 在真實世界環境中持續自我改進
- 多代理協作,原生具備角色邊界、對抗性推理及協議遵從能力
- 主動參與執行與決策,而非被動回應
- 複雜環境互動,在複雜多步驟任務上達到 97% 技能執行率
軟體工程
超越基準測試,M2.7 能應對真實世界的工程工作流程:
- 端到端專案交付(不只是孤立的程式碼修補)
- 日誌分析與除錯
- 程式碼安全審查
- 機器學習流程開發
辦公套件卓越表現
增強的專業生產力能力:
- 複雜 Excel 操作與公式生成
- PowerPoint 建立與編輯
- Word 文件處理
- 多輪修改支援——透過對話迭代文件
角色扮演與情感智能
M2.7 包含增強的身份保持與情感智能能力,為互動娛樂、角色扮演及角色驅動應用提供堅實基礎。
兩種 API 變體
| 變體 | 速度 | 品質 | 使用場景 |
|---|---|---|---|
| M2.7 | 標準 | 完整品質 | 正式環境、複雜任務 |
| M2.7-highspeed | 更快 | 結果相同 | 高吞吐量、對延遲敏感 |
兩種變體產生相同的結果——highspeed 變體僅針對對延遲敏感的應用提供更快的處理速度。
開發者工具相容性
M2.7 與開發者已在使用的工具整合:
- AI 程式碼撰寫:Claude Code、Cursor、Cline、Codex CLI、Roo Code、Kilo Code
- 代理:OpenCode、Droid、TRAE、Grok CLI
- 平台:MiniMax Agent、MiniMax API Platform
OpenRoom:互動代理示範
MiniMax 同時開源了 OpenRoom——一個互動代理示範,將 AI 互動從純文字擴展至圖形環境。大部分程式碼由 AI 生成,展示了 M2.7 的實際程式碼撰寫能力。
M2.7 vs 競爭對手:誰該選什麼
| 如果你需要… | 最佳選擇 |
|---|---|
| 不計成本的最高基準測試上限 | Claude Opus 4.6 |
| 成本調整後最佳的程式碼撰寫性能 | MiniMax M2.7 |
| 最快的推理速度 | MiniMax M2.7(100 TPS) |
| 大量代理工作負載 | MiniMax M2.7(便宜 50 倍) |
| 辦公生產力自動化 | MiniMax M2.7(GDPval-AA ELO 最高) |
| 成熟的生態系統與整合 | Claude 或 GPT |
| 自我改進代理能力 | MiniMax M2.7(OpenClaw) |
在 WaveSpeedAI 上試用 M2.7
WaveSpeedAI 透過統一平台提供 MiniMax M2.7 及數百個其他 AI 模型的存取。無論你是在構建程式碼代理、文件處理流程,還是互動應用程式,M2.7 結合第一梯隊性能與極低成本定價,使其成為正式工作負載最高效的選擇。
在 WaveSpeedAI 上試用 MiniMax M2.7 →
無需訂閱。無冷啟動。按用量付費。
結語
MiniMax M2.7 不只是又一次模型發布——它是自我進化 AI 的概念驗證。一個僅啟動 100 億參數的模型,在最嚴苛的工程基準測試上比肩 Opus 與 GPT-5,同時運行速度快 3 倍、成本低 50 倍,這正是重塑團隊構建 AI 方式的顛覆性突破。
問題不在於 M2.7 是否夠好,而在於你是否能合理解釋為微小優勢多付 50 倍的費用。

