MiniMax M2.7：能與Claude和GPT媲美的自我進化AI模型，成本僅需一小部分

MiniMax M2.7：重寫 AI 代理規則的自我進化模型

當你讓 AI 模型參與自身的進化時，會發生什麼？MiniMax 剛剛用 M2.7 給出了答案——這是一款新世代旗艦文字模型，它不只執行任務，更透過真實世界的互動主動改進自身。M2.7 基於 OpenClaw（Agent Harness）框架構建，在訓練期間自主執行了超過 100 輪架構優化，在無需人工干預的情況下，內部評估的性能提升了 30%。

最終成果是一款在最嚴苛的程式碼撰寫與代理基準測試中，能比肩甚至接近 Claude Opus 4.6 與 GPT-5 的模型——運行速度快 3 倍，成本卻僅為其零頭。以下是你需要了解的一切。

M2.7 的與眾不同之處：自我改進

大多數 AI 模型被訓練、評估後，就以靜態成品的形式部署。M2.7 打破了這個模式。它是 MiniMax 首款深度參與自身進化的模型——涉及更新自身記憶、建立訓練技能，以及改進自身學習過程。

在開發過程中，M2.7 自主完成了以下工作：

執行 100+ 次迭代循環，優化自身架構性能
獨立管理 30–50% 的強化學習研究工作流程
參與 22 項機器學習競賽，在最佳試驗中奪得 9 枚金牌
在 MLE-Bench Lite 上達到 66.6% 的獎牌率，與 Google 的 Gemini 3.1 並列

這不僅是一種訓練技術，更預示著 AI 發展的走向。能夠評估並提升自身性能的模型，代表著一種與靜態「訓練後部署」週期截然不同的全新範式。

基準測試表現：遠超預期

M2.7 僅啟動 100 億個參數——使其成為第一梯隊性能等級中最小的模型。儘管如此高效，它仍能與規模大出數個數量級的模型正面競爭。

軟體工程

基準測試	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56.22%	~57%	56.2%
SWE-bench Verified	78%	55%	—
VIBE-Pro（端到端交付）	55.6%	—	—
Terminal Bench 2	57.0%	—	—

M2.7 在 SWE-Pro 上幾乎與 Opus 持平，並在 SWE-bench Verified 上大幅領先（78% 對 55%）。VIBE-Pro 衡量的是端到端專案交付能力，而非孤立的程式碼修補——M2.7 得分 55.6%，展現出超越基準特定優化的真實工程能力。

專業生產力

基準測試	M2.7	最佳競爭者
GDPval-AA（辦公任務）	ELO 1495	所有開源模型中最高
技能執行率（40 項複雜任務）	97%	—
MM Claw（代理評估）	62.7%	接近 Sonnet 4.6

M2.7 在 GDPval-AA 上的 ELO 評分為 1495——該測試評估 Excel、PowerPoint、Word 及複雜文件編輯等真實辦公生產力任務——是所有開源模型中最高的。在 40 多項複雜任務（每項超過 2,000 個 token）中達到 97% 的技能執行率，證明了其在複雜多步驟工作流程上的可靠執行能力，而這正是大多數模型的弱點。

機器學習研究

基準測試	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite（獎牌率）	66.6%	66.6%	71.2%

M2.7 與 Google 的 Gemini 3.1 並列，並接近 GPT-5.4 在機器學習競賽基準測試上的最先進水準——對於一個僅啟動 100 億參數的模型而言，這是一個驚人的成果。

速度與定價：真正的顛覆所在

原始基準分數只說明了故事的一面。成本調整後的性能，則呈現出截然不同的面貌。

指標	M2.7	Claude Opus 4.6	GPT-5
速度	100 TPS	~33 TPS	~40 TPS
輸入成本	$0.30/百萬 token	$15/百萬 token	$10/百萬 token
輸出成本	$1.20/百萬 token	$75/百萬 token	$30/百萬 token
混合成本（含快取）	$0.06/百萬 token	—	—
啟動參數	100 億	—	—

M2.7 的輸入成本比 Opus 便宜 50 倍，輸出成本便宜 60 倍——同時在 SWE-Pro 上與其持平。以每秒 100 個 token 的速度，也快了 3 倍。透過自動快取優化，有效混合成本降至每百萬 token 僅 $0.06。

對於運行大量代理工作負載、程式碼輔助或文件處理流程的團隊來說，這樣的成本結構徹底改變了可行方案的經濟邏輯。

核心能力

以代理為中心的工作流程

M2.7 從底層開始就為代理使用場景而設計。OpenClaw 框架支援：

在真實世界環境中持續自我改進
多代理協作，原生具備角色邊界、對抗性推理及協議遵從能力
主動參與執行與決策，而非被動回應
複雜環境互動，在複雜多步驟任務上達到 97% 技能執行率

軟體工程

超越基準測試，M2.7 能應對真實世界的工程工作流程：

端到端專案交付（不只是孤立的程式碼修補）
日誌分析與除錯
程式碼安全審查
機器學習流程開發

辦公套件卓越表現

增強的專業生產力能力：

複雜 Excel 操作與公式生成
PowerPoint 建立與編輯
Word 文件處理
多輪修改支援——透過對話迭代文件

角色扮演與情感智能

M2.7 包含增強的身份保持與情感智能能力，為互動娛樂、角色扮演及角色驅動應用提供堅實基礎。

兩種 API 變體

變體	速度	品質	使用場景
M2.7	標準	完整品質	正式環境、複雜任務
M2.7-highspeed	更快	結果相同	高吞吐量、對延遲敏感

兩種變體產生相同的結果——highspeed 變體僅針對對延遲敏感的應用提供更快的處理速度。

開發者工具相容性

M2.7 與開發者已在使用的工具整合：

AI 程式碼撰寫：Claude Code、Cursor、Cline、Codex CLI、Roo Code、Kilo Code
代理：OpenCode、Droid、TRAE、Grok CLI
平台：MiniMax Agent、MiniMax API Platform

OpenRoom：互動代理示範

MiniMax 同時開源了 OpenRoom——一個互動代理示範，將 AI 互動從純文字擴展至圖形環境。大部分程式碼由 AI 生成，展示了 M2.7 的實際程式碼撰寫能力。

儲存庫：github.com/MiniMax-AI/OpenRoom
線上示範：openroom.ai

M2.7 vs 競爭對手：誰該選什麼

如果你需要…	最佳選擇
不計成本的最高基準測試上限	Claude Opus 4.6
成本調整後最佳的程式碼撰寫性能	MiniMax M2.7
最快的推理速度	MiniMax M2.7（100 TPS）
大量代理工作負載	MiniMax M2.7（便宜 50 倍）
辦公生產力自動化	MiniMax M2.7（GDPval-AA ELO 最高）
成熟的生態系統與整合	Claude 或 GPT
自我改進代理能力	MiniMax M2.7（OpenClaw）

在 WaveSpeedAI 上試用 M2.7

WaveSpeedAI 透過統一平台提供 MiniMax M2.7 及數百個其他 AI 模型的存取。無論你是在構建程式碼代理、文件處理流程，還是互動應用程式，M2.7 結合第一梯隊性能與極低成本定價，使其成為正式工作負載最高效的選擇。

在 WaveSpeedAI 上試用 MiniMax M2.7 →

無需訂閱。無冷啟動。按用量付費。

結語

MiniMax M2.7 不只是又一次模型發布——它是自我進化 AI 的概念驗證。一個僅啟動 100 億參數的模型，在最嚴苛的工程基準測試上比肩 Opus 與 GPT-5，同時運行速度快 3 倍、成本低 50 倍，這正是重塑團隊構建 AI 方式的顛覆性突破。

問題不在於 M2.7 是否夠好，而在於你是否能合理解釋為微小優勢多付 50 倍的費用。

MiniMax M2.7：重寫 AI 代理規則的自我進化模型

M2.7 的與眾不同之處：自我改進

基準測試表現：遠超預期

軟體工程

專業生產力

機器學習研究

速度與定價：真正的顛覆所在

核心能力

以代理為中心的工作流程

軟體工程

辦公套件卓越表現

角色扮演與情感智能

兩種 API 變體

開發者工具相容性

OpenRoom：互動代理示範

M2.7 vs 競爭對手：誰該選什麼

在 WaveSpeedAI 上試用 M2.7

結語

相關文章

PixVerse V6 Extend 現已登陸WaveSpeedAI

PixVerse V6 Image-to-Video現已登陸WaveSpeedAI

PixVerse V6文字生成影片現已登陸WaveSpeedAI

PixVerse V6 Transition 現已登陸WaveSpeedAI

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智譜AI最新模型的實力評測

Phota Edit現已登陸WaveSpeedAI