← Blog

MiniMax M2.7: Model AI yang Terus Berkembang Sendiri, Menyaingi Claude dan GPT dengan Biaya Jauh Lebih Murah

MiniMax M2.7 adalah model teks unggulan generasi berikutnya dengan kemampuan peningkatan mandiri, skor 56,22% pada SWE-Pro, kecepatan 100 TPS, dan harga $0,30/juta token input. Bandingkan M2.7 dengan Claude Opus 4.6, GPT-5, dan Gemini 3.1 dalam hal benchmark, harga, dan kemampuan agen.

7 min read

MiniMax M2.7: Model yang Berevolusi Sendiri dan Menulis Ulang Aturan AI Agent

Apa yang terjadi ketika Anda membiarkan model AI berpartisipasi dalam evolusinya sendiri? MiniMax baru saja menjawab pertanyaan itu dengan M2.7 — model teks flagship generasi berikutnya yang tidak hanya mengeksekusi tugas, tetapi secara aktif meningkatkan dirinya sendiri melalui interaksi di dunia nyata. Dibangun di atas kerangka kerja OpenClaw (Agent Harness), M2.7 secara otonom menjalankan lebih dari 100 putaran optimasi scaffold selama pelatihan, mencapai peningkatan kinerja 30% pada evaluasi internal — tanpa intervensi manusia.

Hasilnya adalah model yang menyamai atau mendekati Claude Opus 4.6 dan GPT-5 pada benchmark coding dan agent tersulit, berjalan 3x lebih cepat, dan harganya jauh lebih murah. Berikut semua yang perlu Anda ketahui.

Apa yang Membuat M2.7 Berbeda: Peningkatan Diri Sendiri

Sebagian besar model AI dilatih, dievaluasi, dan di-deploy sebagai artefak statis. M2.7 memecah pola tersebut. Ini adalah model pertama MiniMax yang berpartisipasi secara mendalam dalam evolusinya sendiri — terlibat dalam memperbarui memorinya sendiri, membangun keterampilan pelatihan, dan meningkatkan proses belajarnya sendiri.

Selama pengembangan, M2.7 secara otonom:

  • Mengeksekusi lebih dari 100 siklus iterasi untuk mengoptimalkan kinerja scaffold-nya sendiri
  • Mengelola 30–50% alur kerja penelitian reinforcement learning secara mandiri
  • Berpartisipasi dalam 22 kompetisi ML, meraih 9 medali emas dalam percobaan terbaik
  • Mencapai tingkat medali 66,6% pada MLE-Bench Lite, menyamai Google Gemini 3.1

Ini bukan sekadar teknik pelatihan — ini adalah sinyal ke mana arah pengembangan AI. Model yang dapat mengevaluasi dan meningkatkan kinerjanya sendiri merepresentasikan paradigma yang secara fundamental berbeda dari siklus train-and-deploy yang statis.

Kinerja Benchmark: Jauh Melampaui Ukurannya

M2.7 hanya mengaktifkan 10 miliar parameter — menjadikannya model terkecil di kelas kinerja Tier-1. Terlepas dari efisiensi ini, ia bersaing langsung dengan model yang ukurannya jauh lebih besar.

Rekayasa Perangkat Lunak

BenchmarkM2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56,22%~57%56,2%
SWE-bench Verified78%55%
VIBE-Pro (pengiriman end-to-end)55,6%
Terminal Bench 257,0%

M2.7 hampir menyamai Opus pada SWE-Pro dan secara signifikan mengungguli pada SWE-bench Verified (78% vs 55%). Pada VIBE-Pro — yang mengukur pengiriman proyek end-to-end daripada patch terisolasi — M2.7 mencetak 55,6%, menunjukkan kemampuan rekayasa dunia nyata di luar optimasi khusus benchmark.

Produktivitas Profesional

BenchmarkM2.7Pesaing Terbaik
GDPval-AA (Tugas kantor)ELO 1495Tertinggi di antara model open-source
Skill Adherence (40 tugas kompleks)97%
MM Claw (Evaluasi agent)62,7%Mendekati Sonnet 4.6

Skor ELO M2.7 sebesar 1495 pada GDPval-AA — yang mengevaluasi tugas produktivitas kantor dunia nyata di Excel, PowerPoint, Word, dan pengeditan dokumen kompleks — adalah yang tertinggi di antara semua model open-source. Tingkat kepatuhan keterampilan 97% pada 40+ tugas kompleks (masing-masing melebihi 2.000 token) menunjukkan eksekusi yang andal pada jenis alur kerja multi-langkah yang rumit yang membuat sebagian besar model kesulitan.

Penelitian Machine Learning

BenchmarkM2.7Gemini 3.1GPT-5.4
MLE-Bench Lite (tingkat medali)66,6%66,6%71,2%

M2.7 menyamai Google Gemini 3.1 dan mendekati state-of-the-art GPT-5.4 pada benchmark kompetisi machine learning — hasil yang luar biasa untuk model dengan hanya 10B parameter yang diaktifkan.

Kecepatan dan Harga: Gangguan Sesungguhnya

Skor benchmark mentah menceritakan satu kisah. Kinerja yang disesuaikan biaya menceritakan kisah yang sepenuhnya berbeda.

MetrikM2.7Claude Opus 4.6GPT-5
Kecepatan100 TPS~33 TPS~40 TPS
Biaya input$0,30/juta token$15/juta token$10/juta token
Biaya output$1,20/juta token$75/juta token$30/juta token
Biaya campuran (dengan cache)$0,06/juta token
Parameter yang diaktifkan10B

M2.7 50x lebih murah dari Opus untuk input dan 60x lebih murah untuk output — sambil menyamainya pada SWE-Pro. Dengan 100 token per detik, ia juga 3x lebih cepat. Dengan optimasi cache otomatis, biaya campuran efektif turun menjadi hanya $0,06 per juta token.

Bagi tim yang menjalankan beban kerja agent bervolume tinggi, asisten coding, atau pipeline pemrosesan dokumen, struktur biaya ini mengubah ekonomi dari apa yang layak dilakukan.

Kemampuan Utama

Alur Kerja Berbasis Agent

M2.7 dibangun dari awal untuk kasus penggunaan agentik. Kerangka kerja OpenClaw memungkinkan:

  • Peningkatan diri berkelanjutan di lingkungan dunia nyata
  • Kolaborasi multi-agent dengan kemampuan bawaan dalam batasan peran, penalaran adversarial, dan kepatuhan protokol
  • Partisipasi aktif dalam eksekusi dan pengambilan keputusan daripada sekadar menghasilkan respons pasif
  • Interaksi lingkungan yang kompleks dengan kepatuhan keterampilan 97% pada tugas multi-langkah yang rumit

Rekayasa Perangkat Lunak

Di luar benchmark, M2.7 menangani alur kerja rekayasa dunia nyata:

  • Pengiriman proyek end-to-end (bukan hanya patch kode terisolasi)
  • Analisis log dan debugging
  • Tinjauan keamanan kode
  • Pengembangan pipeline machine learning

Keunggulan Suite Office

Kemampuan yang ditingkatkan untuk produktivitas profesional:

  • Operasi Excel dan pembuatan formula yang kompleks
  • Pembuatan dan pengeditan PowerPoint
  • Manipulasi dokumen Word
  • Dukungan modifikasi multi-giliran — iterasi pada dokumen melalui percakapan

Karakter dan Kecerdasan Emosional

M2.7 mencakup kemampuan pelestarian identitas dan kecerdasan emosional yang ditingkatkan, memberikan fondasi untuk hiburan interaktif, roleplay, dan aplikasi berbasis karakter.

Dua Varian API

VarianKecepatanKualitasKasus Penggunaan
M2.7StandarKualitas penuhProduksi, tugas kompleks
M2.7-highspeedLebih cepatHasil identikThroughput tinggi, sensitif latensi

Kedua varian menghasilkan hasil yang identik — varian highspeed hanya memproses lebih cepat untuk aplikasi yang sensitif terhadap latensi.

Kompatibilitas Alat Developer

M2.7 terintegrasi dengan alat yang sudah digunakan developer:

  • AI Coding: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
  • Agents: OpenCode, Droid, TRAE, Grok CLI
  • Platform: MiniMax Agent, MiniMax API Platform

OpenRoom: Demo Agent Interaktif

MiniMax juga merilis open-source OpenRoom — demonstrasi agent interaktif yang memindahkan interaksi AI melampaui teks biasa ke lingkungan grafis. Sebagian besar kode dihasilkan oleh AI, menunjukkan kemampuan coding praktis M2.7.

M2.7 vs Kompetitor: Siapa Harus Menggunakan Apa

Jika Anda membutuhkan…Pilihan terbaik
Puncak benchmark maksimal tanpa mempedulikan biayaClaude Opus 4.6
Kinerja coding terbaik yang disesuaikan biayaMiniMax M2.7
Kecepatan inferensi tercepatMiniMax M2.7 (100 TPS)
Beban kerja agent bervolume tinggiMiniMax M2.7 (50x lebih murah)
Otomasi produktivitas kantorMiniMax M2.7 (ELO GDPval-AA tertinggi)
Ekosistem dan integrasi yang sudah mapanClaude atau GPT
Kemampuan agent yang berevolusi sendiriMiniMax M2.7 (OpenClaw)

Coba M2.7 di WaveSpeedAI

WaveSpeedAI menyediakan akses ke MiniMax M2.7 bersama ratusan model AI lainnya melalui platform terpadu. Baik Anda membangun coding agent, pipeline pemrosesan dokumen, atau aplikasi interaktif, kombinasi kinerja Tier-1 dan harga sebagian kecil dari kompetitor membuat M2.7 menjadi pilihan paling efisien untuk beban kerja produksi.

Coba MiniMax M2.7 di WaveSpeedAI →

Tidak ada langganan. Tidak ada cold start. Bayar hanya untuk apa yang Anda gunakan.

Kesimpulan

MiniMax M2.7 bukan sekadar rilis model biasa — ini adalah bukti konsep untuk AI yang berevolusi sendiri. Model dengan hanya 10B parameter yang diaktifkan yang menyamai Opus dan GPT-5 pada benchmark rekayasa tersulit, sambil berjalan 3x lebih cepat dengan biaya 50x lebih rendah, merepresentasikan tepatnya jenis gangguan yang mengubah cara tim membangun dengan AI.

Pertanyaannya bukan apakah M2.7 cukup baik. Pertanyaannya adalah apakah Anda dapat membenarkan membayar 50x lebih mahal untuk keuntungan yang marginal.