← ブログ

MiniMax M2.7:クロードやGPTに匹敵する自己進化型AIモデルがわずかなコストで登場

MiniMax M2.7は、自己改善機能を備えた次世代フラグシップテキストモデルです。SWE-Proで56.22%、100 TPSの速度、入力トークン$0.30/Mを実現。M2.7とClaude Opus 4.6、GPT-5、Gemini 3.1のベンチマーク、価格、エージェント機能を比較します。

2 min read

MiniMax M2.7:AIエージェントのルールを書き換える自己進化モデル

AIモデルが自身の進化に参加したら、何が起きるのか?MiniMaxはその答えをM2.7で示した。これはタスクを実行するだけでなく、実世界との相互作用を通じて自律的に自己改善する次世代フラッグシップテキストモデルだ。OpenClaw(エージェントハーネス)フレームワーク上に構築されたM2.7は、トレーニング中に100回以上のスキャフォールド最適化を自律的に実行し、人間の介入なしに内部評価で30%のパフォーマンス向上を達成した。

その結果、最難関のコーディング・エージェントベンチマークでClaude Opus 4.6やGPT-5に匹敵またはそれに迫り、3倍速く動作し、コストはほんのわずかというモデルが誕生した。知っておくべきことをすべて解説する。

M2.7が違う理由:自己改善

ほとんどのAIモデルは静的な成果物としてトレーニング・評価・デプロイされる。M2.7はそのパターンを破る。これはMiniMaxで初めて自身の進化に深く参加するモデルであり、自身のメモリ更新、トレーニングスキルの構築、学習プロセスの改善に関与している。

開発中、M2.7は自律的に以下を実行した:

  • 自身のスキャフォールドパフォーマンスを最適化する100回以上の反復サイクルを実行
  • 強化学習研究ワークフローの**30〜50%**を独立して管理
  • 22のML競技会に参加し、ベストトライアルで金メダル9個を獲得
  • MLE-Bench Liteで66.6%のメダル率を達成し、GoogleのGemini 3.1と並ぶ

これは単なるトレーニング技術ではなく、AI開発の向かう先を示すシグナルだ。自身のパフォーマンスを評価・改善できるモデルは、静的なトレーニング・デプロイサイクルとは根本的に異なるパラダイムを表している。

ベンチマーク性能:実力をはるかに超えた結果

M2.7がアクティブ化するパラメータはわずか100億——Tier-1パフォーマンスクラスで最小のモデルだ。この効率性にもかかわらず、桁違いに大きなモデルと正面から競合する。

ソフトウェアエンジニアリング

ベンチマークM2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56.22%~57%56.2%
SWE-bench Verified78%55%
VIBE-Pro(エンドツーエンド納品)55.6%
Terminal Bench 257.0%

M2.7はSWE-ProでOpusにほぼ匹敵し、SWE-bench Verifiedでは大幅に上回る(78% vs 55%)。単独のパッチではなくエンドツーエンドのプロジェクト納品を測定するVIBE-Proでは55.6%を記録し、ベンチマーク特化の最適化を超えた実世界のエンジニアリング能力を示している。

プロフェッショナル生産性

ベンチマークM2.7最良の競合
GDPval-AA(オフィス業務)ELO 1495オープンソースモデル中最高
スキル遵守率(40の複合タスク)97%
MM Claw(エージェント評価)62.7%Sonnet 4.6に迫る

Excel、PowerPoint、Word、複雑な文書編集など実世界のオフィス生産性タスクを評価するGDPval-AAで、M2.7のELOスコア1495は全オープンソースモデル中最高だ。2,000トークンを超える40以上の複合タスクにおける97%のスキル遵守率は、ほとんどのモデルが苦手とする複雑な多段階ワークフローでの信頼性の高い実行を示している。

機械学習研究

ベンチマークM2.7Gemini 3.1GPT-5.4
MLE-Bench Lite(メダル率)66.6%66.6%71.2%

M2.7は機械学習コンペティションベンチマークでGoogleのGemini 3.1と並び、GPT-5.4の最先端に迫る——アクティブパラメータが10Bしかないモデルとしては驚異的な結果だ。

速度と価格:本当のディスラプション

生のベンチマークスコアは一つの物語を語る。コスト調整後のパフォーマンスはまったく異なる物語を語る。

指標M2.7Claude Opus 4.6GPT-5
速度100 TPS~33 TPS~40 TPS
入力コスト$0.30/Mトークン$15/Mトークン$10/Mトークン
出力コスト$1.20/Mトークン$75/Mトークン$30/Mトークン
ブレンドコスト(キャッシュあり)$0.06/Mトークン
アクティブパラメータ10B

M2.7は入力でOpusより50倍安く、出力では60倍安い——SWE-Proでは同等の性能を発揮しながら。毎秒100トークンで3倍速くもある。自動キャッシュ最適化により、実効ブレンドコストはわずか100万トークンあたり$0.06まで下がる。

大量のエージェントワークロード、コーディングアシスタント、文書処理パイプラインを運用するチームにとって、このコスト構造は実現可能なことの経済性を変える。

主要機能

エージェント中心のワークフロー

M2.7はエージェント的ユースケースのためにゼロから構築されている。OpenClawフレームワークが実現するもの:

  • 実世界環境における継続的な自己改善
  • 役割境界、対立的推論、プロトコル遵守のネイティブ機能を備えたマルチエージェント協調
  • 受動的な応答生成ではなく実行と意思決定への積極的参加
  • 複雑な多段階タスクで97%のスキル遵守率を持つ複雑な環境インタラクション

ソフトウェアエンジニアリング

ベンチマークを超え、M2.7は実世界のエンジニアリングワークフローを処理する:

  • エンドツーエンドのプロジェクト納品(単独のコードパッチだけでなく)
  • ログ分析とデバッグ
  • コードセキュリティレビュー
  • 機械学習パイプライン開発

オフィススイートの卓越性

プロフェッショナルな生産性のための強化された機能:

  • 複雑なExcel操作と数式生成
  • PowerPointの作成と編集
  • Word文書の操作
  • マルチターン修正サポート——会話を通じて文書を反復改善

キャラクターと感情的知性

M2.7にはアイデンティティ保持と感情的知性の強化機能が含まれており、インタラクティブエンタメ、ロールプレイ、キャラクター主導のアプリケーションの基盤を提供する。

2つのAPIバリアント

バリアント速度品質ユースケース
M2.7標準フル品質本番環境、複雑なタスク
M2.7-highspeed高速同一の結果高スループット、レイテンシ重視

両バリアントは同一の結果を生成する——highspeedバリアントは単にレイテンシ重視のアプリケーション向けに高速処理する。

開発者ツールの互換性

M2.7は開発者がすでに使用しているツールと統合される:

  • AIコーディング: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
  • エージェント: OpenCode, Droid, TRAE, Grok CLI
  • プラットフォーム: MiniMax Agent, MiniMax API Platform

OpenRoom:インタラクティブエージェントデモ

MiniMaxはまたOpenRoomもオープンソース化した——AIのインタラクションをプレーンテキストからグラフィカル環境へと進化させるインタラクティブエージェントデモだ。コードの大部分はAI生成であり、M2.7の実用的なコーディング能力を実証している。

M2.7 vs 競合:誰が何を使うべきか

必要なもの…最良の選択
コストを問わず最大のベンチマーク上限Claude Opus 4.6
コスト調整済みの最良コーディングパフォーマンスMiniMax M2.7
最速の推論速度MiniMax M2.7(100 TPS)
大量エージェントワークロードMiniMax M2.7(50倍安い)
オフィス生産性自動化MiniMax M2.7(GDPval-AA ELO最高)
確立されたエコシステムと統合ClaudeまたはGPT
自己改善エージェント機能MiniMax M2.7(OpenClaw)

WaveSpeedAIでM2.7を試す

WaveSpeedAIは統合プラットフォームを通じて、MiniMax M2.7を含む数百のAIモデルへのアクセスを提供している。コーディングエージェント、文書処理パイプライン、インタラクティブアプリケーションのいずれを構築する場合でも、M2.7のTier-1パフォーマンスと低コスト価格の組み合わせは、本番ワークロードにとって最も効率的な選択となる。

WaveSpeedAIでMiniMax M2.7を試す →

サブスクリプション不要。コールドスタートなし。使った分だけ支払う。

まとめ

MiniMax M2.7は単なる新モデルのリリースではなく——自己進化型AIの概念実証だ。アクティブパラメータが10Bしかないモデルが、最難関のエンジニアリングベンチマークでOpusやGPT-5に匹敵し、50倍低コストで3倍速く動作するという事実は、チームがAIを使って構築する方法を再形成する種類のディスラプションをまさに体現している。

問題はM2.7が十分優秀かどうかではない。わずかな差のために50倍多く支払うことが正当化できるかどうかだ。