MiniMax M2.7: Model AI yang Terus Berkembang Sendiri, Menyaingi Claude dan GPT dengan Biaya Jauh Lebih Murah

MiniMax M2.7: Model yang Berevolusi Sendiri dan Menulis Ulang Aturan AI Agent

Apa yang terjadi ketika Anda membiarkan model AI berpartisipasi dalam evolusinya sendiri? MiniMax baru saja menjawab pertanyaan itu dengan M2.7 — model teks flagship generasi berikutnya yang tidak hanya mengeksekusi tugas, tetapi secara aktif meningkatkan dirinya sendiri melalui interaksi di dunia nyata. Dibangun di atas kerangka kerja OpenClaw (Agent Harness), M2.7 secara otonom menjalankan lebih dari 100 putaran optimasi scaffold selama pelatihan, mencapai peningkatan kinerja 30% pada evaluasi internal — tanpa intervensi manusia.

Hasilnya adalah model yang menyamai atau mendekati Claude Opus 4.6 dan GPT-5 pada benchmark coding dan agent tersulit, berjalan 3x lebih cepat, dan harganya jauh lebih murah. Berikut semua yang perlu Anda ketahui.

Apa yang Membuat M2.7 Berbeda: Peningkatan Diri Sendiri

Sebagian besar model AI dilatih, dievaluasi, dan di-deploy sebagai artefak statis. M2.7 memecah pola tersebut. Ini adalah model pertama MiniMax yang berpartisipasi secara mendalam dalam evolusinya sendiri — terlibat dalam memperbarui memorinya sendiri, membangun keterampilan pelatihan, dan meningkatkan proses belajarnya sendiri.

Selama pengembangan, M2.7 secara otonom:

Mengeksekusi lebih dari 100 siklus iterasi untuk mengoptimalkan kinerja scaffold-nya sendiri
Mengelola 30–50% alur kerja penelitian reinforcement learning secara mandiri
Berpartisipasi dalam 22 kompetisi ML, meraih 9 medali emas dalam percobaan terbaik
Mencapai tingkat medali 66,6% pada MLE-Bench Lite, menyamai Google Gemini 3.1

Ini bukan sekadar teknik pelatihan — ini adalah sinyal ke mana arah pengembangan AI. Model yang dapat mengevaluasi dan meningkatkan kinerjanya sendiri merepresentasikan paradigma yang secara fundamental berbeda dari siklus train-and-deploy yang statis.

Kinerja Benchmark: Jauh Melampaui Ukurannya

M2.7 hanya mengaktifkan 10 miliar parameter — menjadikannya model terkecil di kelas kinerja Tier-1. Terlepas dari efisiensi ini, ia bersaing langsung dengan model yang ukurannya jauh lebih besar.

Rekayasa Perangkat Lunak

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56,22%	~57%	56,2%
SWE-bench Verified	78%	55%	—
VIBE-Pro (pengiriman end-to-end)	55,6%	—	—
Terminal Bench 2	57,0%	—	—

M2.7 hampir menyamai Opus pada SWE-Pro dan secara signifikan mengungguli pada SWE-bench Verified (78% vs 55%). Pada VIBE-Pro — yang mengukur pengiriman proyek end-to-end daripada patch terisolasi — M2.7 mencetak 55,6%, menunjukkan kemampuan rekayasa dunia nyata di luar optimasi khusus benchmark.

Produktivitas Profesional

Benchmark	M2.7	Pesaing Terbaik
GDPval-AA (Tugas kantor)	ELO 1495	Tertinggi di antara model open-source
Skill Adherence (40 tugas kompleks)	97%	—
MM Claw (Evaluasi agent)	62,7%	Mendekati Sonnet 4.6

Skor ELO M2.7 sebesar 1495 pada GDPval-AA — yang mengevaluasi tugas produktivitas kantor dunia nyata di Excel, PowerPoint, Word, dan pengeditan dokumen kompleks — adalah yang tertinggi di antara semua model open-source. Tingkat kepatuhan keterampilan 97% pada 40+ tugas kompleks (masing-masing melebihi 2.000 token) menunjukkan eksekusi yang andal pada jenis alur kerja multi-langkah yang rumit yang membuat sebagian besar model kesulitan.

Penelitian Machine Learning

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite (tingkat medali)	66,6%	66,6%	71,2%

M2.7 menyamai Google Gemini 3.1 dan mendekati state-of-the-art GPT-5.4 pada benchmark kompetisi machine learning — hasil yang luar biasa untuk model dengan hanya 10B parameter yang diaktifkan.

Kecepatan dan Harga: Gangguan Sesungguhnya

Skor benchmark mentah menceritakan satu kisah. Kinerja yang disesuaikan biaya menceritakan kisah yang sepenuhnya berbeda.

Metrik	M2.7	Claude Opus 4.6	GPT-5
Kecepatan	100 TPS	~33 TPS	~40 TPS
Biaya input	$0,30/juta token	$15/juta token	$10/juta token
Biaya output	$1,20/juta token	$75/juta token	$30/juta token
Biaya campuran (dengan cache)	$0,06/juta token	—	—
Parameter yang diaktifkan	10B	—	—

M2.7 50x lebih murah dari Opus untuk input dan 60x lebih murah untuk output — sambil menyamainya pada SWE-Pro. Dengan 100 token per detik, ia juga 3x lebih cepat. Dengan optimasi cache otomatis, biaya campuran efektif turun menjadi hanya $0,06 per juta token.

Bagi tim yang menjalankan beban kerja agent bervolume tinggi, asisten coding, atau pipeline pemrosesan dokumen, struktur biaya ini mengubah ekonomi dari apa yang layak dilakukan.

Kemampuan Utama

Alur Kerja Berbasis Agent

M2.7 dibangun dari awal untuk kasus penggunaan agentik. Kerangka kerja OpenClaw memungkinkan:

Peningkatan diri berkelanjutan di lingkungan dunia nyata
Kolaborasi multi-agent dengan kemampuan bawaan dalam batasan peran, penalaran adversarial, dan kepatuhan protokol
Partisipasi aktif dalam eksekusi dan pengambilan keputusan daripada sekadar menghasilkan respons pasif
Interaksi lingkungan yang kompleks dengan kepatuhan keterampilan 97% pada tugas multi-langkah yang rumit

Rekayasa Perangkat Lunak

Di luar benchmark, M2.7 menangani alur kerja rekayasa dunia nyata:

Pengiriman proyek end-to-end (bukan hanya patch kode terisolasi)
Analisis log dan debugging
Tinjauan keamanan kode
Pengembangan pipeline machine learning

Keunggulan Suite Office

Kemampuan yang ditingkatkan untuk produktivitas profesional:

Operasi Excel dan pembuatan formula yang kompleks
Pembuatan dan pengeditan PowerPoint
Manipulasi dokumen Word
Dukungan modifikasi multi-giliran — iterasi pada dokumen melalui percakapan

Karakter dan Kecerdasan Emosional

M2.7 mencakup kemampuan pelestarian identitas dan kecerdasan emosional yang ditingkatkan, memberikan fondasi untuk hiburan interaktif, roleplay, dan aplikasi berbasis karakter.

Dua Varian API

Varian	Kecepatan	Kualitas	Kasus Penggunaan
M2.7	Standar	Kualitas penuh	Produksi, tugas kompleks
M2.7-highspeed	Lebih cepat	Hasil identik	Throughput tinggi, sensitif latensi

Kedua varian menghasilkan hasil yang identik — varian highspeed hanya memproses lebih cepat untuk aplikasi yang sensitif terhadap latensi.

Kompatibilitas Alat Developer

M2.7 terintegrasi dengan alat yang sudah digunakan developer:

AI Coding: Claude Code, Cursor, Cline, Codex CLI, Roo Code, Kilo Code
Agents: OpenCode, Droid, TRAE, Grok CLI
Platform: MiniMax Agent, MiniMax API Platform

OpenRoom: Demo Agent Interaktif

MiniMax juga merilis open-source OpenRoom — demonstrasi agent interaktif yang memindahkan interaksi AI melampaui teks biasa ke lingkungan grafis. Sebagian besar kode dihasilkan oleh AI, menunjukkan kemampuan coding praktis M2.7.

Repositori: github.com/MiniMax-AI/OpenRoom
Demo Langsung: openroom.ai

M2.7 vs Kompetitor: Siapa Harus Menggunakan Apa

Jika Anda membutuhkan…	Pilihan terbaik
Puncak benchmark maksimal tanpa mempedulikan biaya	Claude Opus 4.6
Kinerja coding terbaik yang disesuaikan biaya	MiniMax M2.7
Kecepatan inferensi tercepat	MiniMax M2.7 (100 TPS)
Beban kerja agent bervolume tinggi	MiniMax M2.7 (50x lebih murah)
Otomasi produktivitas kantor	MiniMax M2.7 (ELO GDPval-AA tertinggi)
Ekosistem dan integrasi yang sudah mapan	Claude atau GPT
Kemampuan agent yang berevolusi sendiri	MiniMax M2.7 (OpenClaw)

Coba M2.7 di WaveSpeedAI

WaveSpeedAI menyediakan akses ke MiniMax M2.7 bersama ratusan model AI lainnya melalui platform terpadu. Baik Anda membangun coding agent, pipeline pemrosesan dokumen, atau aplikasi interaktif, kombinasi kinerja Tier-1 dan harga sebagian kecil dari kompetitor membuat M2.7 menjadi pilihan paling efisien untuk beban kerja produksi.

Coba MiniMax M2.7 di WaveSpeedAI →

Tidak ada langganan. Tidak ada cold start. Bayar hanya untuk apa yang Anda gunakan.

Kesimpulan

MiniMax M2.7 bukan sekadar rilis model biasa — ini adalah bukti konsep untuk AI yang berevolusi sendiri. Model dengan hanya 10B parameter yang diaktifkan yang menyamai Opus dan GPT-5 pada benchmark rekayasa tersulit, sambil berjalan 3x lebih cepat dengan biaya 50x lebih rendah, merepresentasikan tepatnya jenis gangguan yang mengubah cara tim membangun dengan AI.

Pertanyaannya bukan apakah M2.7 cukup baik. Pertanyaannya adalah apakah Anda dapat membenarkan membayar 50x lebih mahal untuk keuntungan yang marginal.

MiniMax M2.7: Model yang Berevolusi Sendiri dan Menulis Ulang Aturan AI Agent

Apa yang Membuat M2.7 Berbeda: Peningkatan Diri Sendiri

Kinerja Benchmark: Jauh Melampaui Ukurannya

Rekayasa Perangkat Lunak

Produktivitas Profesional

Penelitian Machine Learning

Kecepatan dan Harga: Gangguan Sesungguhnya

Kemampuan Utama

Alur Kerja Berbasis Agent

Rekayasa Perangkat Lunak

Keunggulan Suite Office

Karakter dan Kecerdasan Emosional

Dua Varian API

Kompatibilitas Alat Developer

OpenRoom: Demo Agent Interaktif

M2.7 vs Kompetitor: Siapa Harus Menggunakan Apa

Coba M2.7 di WaveSpeedAI

Kesimpulan

Artikel Terkait

Memperkenalkan PixVerse V6 Extend di WaveSpeedAI

Memperkenalkan PixVerse V6 Image-to-Video di WaveSpeedAI

Memperkenalkan PixVerse V6 Text-to-Video di WaveSpeedAI

Memperkenalkan PixVerse V6 Transition di WaveSpeedAI

GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: Bagaimana Model Terbaru Zhipu AI Bersaing

Memperkenalkan Phota Edit di WaveSpeedAI