← 部落格

MiniMax M2.7:能與Claude和GPT媲美的自我進化AI模型,成本僅需一小部分

MiniMax M2.7是新一代旗艦文字模型,具備自我改進能力,在SWE-Pro上達到56.22%,速度100 TPS,輸入費用僅$0.30/百萬token。比較M2.7與Claude Opus 4.6、GPT-5和Gemini 3.1在基準測試、定價及智能代理能力方面的表現。

3 min read

MiniMax M2.7:重寫 AI 代理規則的自我進化模型

當你讓 AI 模型參與自身的進化時,會發生什麼?MiniMax 剛剛用 M2.7 給出了答案——這是一款新世代旗艦文字模型,它不只執行任務,更透過真實世界的互動主動改進自身。M2.7 基於 OpenClaw(Agent Harness)框架構建,在訓練期間自主執行了超過 100 輪架構優化,在無需人工干預的情況下,內部評估的性能提升了 30%。

最終成果是一款在最嚴苛的程式碼撰寫與代理基準測試中,能比肩甚至接近 Claude Opus 4.6 與 GPT-5 的模型——運行速度快 3 倍,成本卻僅為其零頭。以下是你需要了解的一切。

M2.7 的與眾不同之處:自我改進

大多數 AI 模型被訓練、評估後,就以靜態成品的形式部署。M2.7 打破了這個模式。它是 MiniMax 首款深度參與自身進化的模型——涉及更新自身記憶、建立訓練技能,以及改進自身學習過程。

在開發過程中,M2.7 自主完成了以下工作:

  • 執行 100+ 次迭代循環,優化自身架構性能
  • 獨立管理 30–50% 的強化學習研究工作流程
  • 參與 22 項機器學習競賽,在最佳試驗中奪得 9 枚金牌
  • 在 MLE-Bench Lite 上達到 66.6% 的獎牌率,與 Google 的 Gemini 3.1 並列

這不僅是一種訓練技術,更預示著 AI 發展的走向。能夠評估並提升自身性能的模型,代表著一種與靜態「訓練後部署」週期截然不同的全新範式。

基準測試表現:遠超預期

M2.7 僅啟動 100 億個參數——使其成為第一梯隊性能等級中最小的模型。儘管如此高效,它仍能與規模大出數個數量級的模型正面競爭。

軟體工程

基準測試M2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56.22%~57%56.2%
SWE-bench Verified78%55%
VIBE-Pro(端到端交付)55.6%
Terminal Bench 257.0%

M2.7 在 SWE-Pro 上幾乎與 Opus 持平,並在 SWE-bench Verified 上大幅領先(78% 對 55%)。VIBE-Pro 衡量的是端到端專案交付能力,而非孤立的程式碼修補——M2.7 得分 55.6%,展現出超越基準特定優化的真實工程能力。

專業生產力

基準測試M2.7最佳競爭者
GDPval-AA(辦公任務)ELO 1495所有開源模型中最高
技能執行率(40 項複雜任務)97%
MM Claw(代理評估)62.7%接近 Sonnet 4.6

M2.7 在 GDPval-AA 上的 ELO 評分為 1495——該測試評估 Excel、PowerPoint、Word 及複雜文件編輯等真實辦公生產力任務——是所有開源模型中最高的。在 40 多項複雜任務(每項超過 2,000 個 token)中達到 97% 的技能執行率,證明了其在複雜多步驟工作流程上的可靠執行能力,而這正是大多數模型的弱點。

機器學習研究

基準測試M2.7Gemini 3.1GPT-5.4
MLE-Bench Lite(獎牌率)66.6%66.6%71.2%

M2.7 與 Google 的 Gemini 3.1 並列,並接近 GPT-5.4 在機器學習競賽基準測試上的最先進水準——對於一個僅啟動 100 億參數的模型而言,這是一個驚人的成果。

速度與定價:真正的顛覆所在

原始基準分數只說明了故事的一面。成本調整後的性能,則呈現出截然不同的面貌。

指標M2.7Claude Opus 4.6GPT-5
速度100 TPS~33 TPS~40 TPS
輸入成本$0.30/百萬 token$15/百萬 token$10/百萬 token
輸出成本$1.20/百萬 token$75/百萬 token$30/百萬 token
混合成本(含快取)$0.06/百萬 token
啟動參數100 億

M2.7 的輸入成本比 Opus 便宜 50 倍,輸出成本便宜 60 倍——同時在 SWE-Pro 上與其持平。以每秒 100 個 token 的速度,也快了 3 倍。透過自動快取優化,有效混合成本降至每百萬 token 僅 $0.06。

對於運行大量代理工作負載、程式碼輔助或文件處理流程的團隊來說,這樣的成本結構徹底改變了可行方案的經濟邏輯。

核心能力

以代理為中心的工作流程

M2.7 從底層開始就為代理使用場景而設計。OpenClaw 框架支援:

  • 在真實世界環境中持續自我改進
  • 多代理協作,原生具備角色邊界、對抗性推理及協議遵從能力
  • 主動參與執行與決策,而非被動回應
  • 複雜環境互動,在複雜多步驟任務上達到 97% 技能執行率

軟體工程

超越基準測試,M2.7 能應對真實世界的工程工作流程:

  • 端到端專案交付(不只是孤立的程式碼修補)
  • 日誌分析與除錯
  • 程式碼安全審查
  • 機器學習流程開發

辦公套件卓越表現

增強的專業生產力能力:

  • 複雜 Excel 操作與公式生成
  • PowerPoint 建立與編輯
  • Word 文件處理
  • 多輪修改支援——透過對話迭代文件

角色扮演與情感智能

M2.7 包含增強的身份保持與情感智能能力,為互動娛樂、角色扮演及角色驅動應用提供堅實基礎。

兩種 API 變體

變體速度品質使用場景
M2.7標準完整品質正式環境、複雜任務
M2.7-highspeed更快結果相同高吞吐量、對延遲敏感

兩種變體產生相同的結果——highspeed 變體僅針對對延遲敏感的應用提供更快的處理速度。

開發者工具相容性

M2.7 與開發者已在使用的工具整合:

  • AI 程式碼撰寫:Claude Code、Cursor、Cline、Codex CLI、Roo Code、Kilo Code
  • 代理:OpenCode、Droid、TRAE、Grok CLI
  • 平台:MiniMax Agent、MiniMax API Platform

OpenRoom:互動代理示範

MiniMax 同時開源了 OpenRoom——一個互動代理示範,將 AI 互動從純文字擴展至圖形環境。大部分程式碼由 AI 生成,展示了 M2.7 的實際程式碼撰寫能力。

M2.7 vs 競爭對手:誰該選什麼

如果你需要…最佳選擇
不計成本的最高基準測試上限Claude Opus 4.6
成本調整後最佳的程式碼撰寫性能MiniMax M2.7
最快的推理速度MiniMax M2.7(100 TPS)
大量代理工作負載MiniMax M2.7(便宜 50 倍)
辦公生產力自動化MiniMax M2.7(GDPval-AA ELO 最高)
成熟的生態系統與整合Claude 或 GPT
自我改進代理能力MiniMax M2.7(OpenClaw)

在 WaveSpeedAI 上試用 M2.7

WaveSpeedAI 透過統一平台提供 MiniMax M2.7 及數百個其他 AI 模型的存取。無論你是在構建程式碼代理、文件處理流程,還是互動應用程式,M2.7 結合第一梯隊性能與極低成本定價,使其成為正式工作負載最高效的選擇。

在 WaveSpeedAI 上試用 MiniMax M2.7 →

無需訂閱。無冷啟動。按用量付費。

結語

MiniMax M2.7 不只是又一次模型發布——它是自我進化 AI 的概念驗證。一個僅啟動 100 億參數的模型,在最嚴苛的工程基準測試上比肩 Opus 與 GPT-5,同時運行速度快 3 倍、成本低 50 倍,這正是重塑團隊構建 AI 方式的顛覆性突破。

問題不在於 M2.7 是否夠好,而在於你是否能合理解釋為微小優勢多付 50 倍的費用。