Mengapa HappyHorse-1.0 Tiba-Tiba Menjadi #1 di Papan Peringkat Video?

Hei, teman-teman. Dora di sini. Saya menghitung berapa kali seseorang di feed saya minggu ini bertanya sesuatu seperti “apa sih HappyHorse itu?” Enam kali. Enam thread terpisah. Dan masing-masing punya rumor yang sedikit berbeda — ada yang bilang ini WAN 2.7, ada yang bilang ini rilis diam-diam dari ByteDance, ada yang bilang ini dari Alibaba. Tidak ada yang tahu pasti. Yang semua orang sepakati: model ini muncul di papan peringkat video Artificial Analysis sekitar 7–8 April 2026, dan langsung merebut posisi #1 di kategori Text-to-Video dan Image-to-Video.

Itulah faktanya. Semua yang setelah itu — siapa yang membuatnya, kapan bobot modelnya dirilis, apakah ia akan tetap di #1 — masih belum jelas.

Artikel ini membahas apa yang sebenarnya diukur oleh papan peringkat tersebut, mengapa model yang tidak dikenal bisa secara sah menduduki puncaknya, dan apa yang sebaiknya Anda lakukan dan tidak lakukan dengan informasi tersebut sebagai seorang developer.

Cara Kerja Video Arena Artificial Analysis

Sebelum Anda mempercayai sebuah peringkat, Anda perlu memahami apa yang diukur oleh peringkat tersebut. Video Arena Artificial Analysis bukan benchmark di mana pengembang model mengirimkan skor mereka sendiri — ini adalah sistem voting buta oleh pengguna.

Apa yang dilihat (dan tidak dilihat) pengguna

Anda masuk ke arena, ditampilkan dua video yang dihasilkan dari prompt teks atau gambar input yang sama, lalu Anda memilih mana yang lebih Anda sukai. Anda tidak tahu model mana yang membuat video mana. Tidak ada label. Tidak ada konteks. Hanya dua klip.

Begitulah cara Artificial Analysis mendeskripsikannya secara langsung: “Pengguna membandingkan dua video yang dihasilkan dari prompt teks yang sama tanpa mengetahui model mana yang membuat masing-masing video.” Itulah poin pentingnya. Tidak ada pelaporan mandiri, tidak ada benchmark yang disediakan pengembang, tidak ada halaman pemasaran yang memengaruhi hasilnya.

Elo: sinyal yang andal, tapi tidak sempurna

Peringkat ini menggunakan sistem Elo — pendekatan yang sama yang dipinjam dari catur kompetitif. Setiap kali dua model bertanding dalam sebuah vote, pemenang mendapatkan poin Elo dan yang kalah kehilangan beberapa poin. Model dengan Elo tinggi secara konsisten memenangkan lebih banyak pertandingan melawan model lain dibandingkan kekalahannya.

Skor Elo yang lebih tinggi menunjukkan model lebih sering dipilih. Itu adalah sinyal nyata. Didasarkan pada ribuan pilihan manusia sungguhan, bukan tes sintetis, bukan contoh yang dipilih secara selektif, bukan kartu model.

Jumlah vote dan ukuran sampel: bagian yang sering dilewati

Inilah masalahnya dengan Elo untuk pendatang baru. Model-model mapan seperti Seedance 2.0 memiliki ribuan vote di belakang skornya — Seedance 2.0 memiliki lebih dari 7.500 sampel vote dalam kategori T2V. Jumlah sampel HappyHorse belum dipecah secara publik. Lebih banyak vote = skor lebih stabil. Model yang lebih baru dengan lebih sedikit pertandingan bisa berfluktuasi lebih dramatis dengan setiap vote baru.

Angka-angka ini akan berubah seiring bertambahnya vote. Arah perubahan tersebut tidak diketahui. Ingat itu sebelum membuat keputusan pipeline berdasarkan angka yang baru berusia dua hari.

Apa yang Sebenarnya Dinilai oleh HappyHorse-1.0

Angka-angka terkini, diambil dari papan peringkat langsung pada awal April 2026:

T2V (tanpa audio): HappyHorse-1.0 memimpin dengan skor Elo 1357, mengungguli Dreamina Seedance 2.0 di angka 1273, SkyReels V4 di 1244, dan Kling 3.0 Pro di 1243.

I2V (tanpa audio): HappyHorse-1.0 memimpin dengan Elo 1402, dengan Seedance 2.0 di 1355 dan Grok Imagine Video di 1331.

Selisih 84 poin dalam I2V tanpa audio bukanlah hal kecil. Selisih Elo 60 poin berarti satu model memenangkan sekitar 58–59% pertandingan buta — bermakna. Selisih 80+ poin lebih kuat lagi.

Cerita audio berbalik arah

Untuk Image-to-Video dengan audio, HappyHorse-1.0 saat ini memimpin dengan skor Elo 1160, dengan Dreamina Seedance 2.0 di 1158. Selisih 2 poin adalah noise statistik. Dan dalam T2V dengan audio, Seedance 2.0 memimpin di 1220 dengan HappyHorse di 1215.

Jadi gambarannya lebih bernuansa dari sekadar “HappyHorse #1 di mana-mana.” Ini #1 dengan selisih signifikan ketika audio dikecualikan. Ketika kualitas audio masuk dalam perhitungan, pada dasarnya ini seri dengan Seedance 2.0.

Apa yang dikatakan klaim arsitektur (dan apa yang tidak dibuktikannya)

Beberapa situs yang mendeskripsikan HappyHorse mengatakan ia berjalan pada arsitektur Transformer single-stream dengan sekitar 15 miliar parameter, dengan kecepatan generasi yang diklaim sekitar 38 detik untuk klip 1080p pada satu H100. Per 8 April 2026, tautan GitHub dan Hugging Face di situs-situs HappyHorse ini mengarah ke halaman “coming soon” atau mengembalikan error 404. Bobot modelnya tidak dapat diunduh secara publik.

Klaim arsitektur ini masuk akal — tetapi belum terverifikasi. Tidak ada audit teknis independen yang mengonfirmasi jumlah parameter, jenis arsitektur, atau kecepatan inferensi. Perlakukan mereka sebagai klaim, bukan fakta terkonfirmasi.

Mengapa Model yang Tidak Dikenal Bisa Menang di Elo

Inilah hal yang membingungkan orang-orang yang berasumsi papan peringkat memberikan hadiah kepada brand yang sudah dikenal.

Elo tidak peduli siapa yang membangun model. Ia tidak tahu apakah Anda Google atau laboratorium beranggotakan tiga orang. Video Arena Artificial Analysis menggunakan sistem rating Elo dan sepenuhnya mengandalkan vote buta dari pengguna nyata. Ia mengabaikan parameter, makalah, atau hype — hanya peduli pada satu pertanyaan: “Video mana yang lebih Anda sukai setelah menonton keduanya?”

Itu sebenarnya adalah fitur. Ini adalah salah satu dari sedikit sistem evaluasi di mana brand bermodal besar tidak bisa membeli hasil yang lebih baik dengan menerbitkan makalah yang menguntungkan.

Pola ini pernah terjadi sebelumnya

Rilis tersembunyi sebelum peluncuran telah menjadi pola dalam ekosistem AI Tiongkok. Situasi Pony Alpha pada Februari 2026 adalah preseden paling jelas — model misterius muncul di OpenRouter, memicu permainan tebak-tebakan, dan ternyata adalah GLM-5 dari Z.ai yang melakukan uji beban sembunyi-sembunyi. HappyHorse cocok dengan template ini: nama tidak dikenal, tidak ada atribusi tim saat peluncuran, halaman landing dengan tautan GitHub “coming soon”, output yang kuat.

Apakah ini laboratorium besar yang melakukan pemeriksaan kemampuan secara diam-diam atau tim yang benar-benar baru — masih belum jelas. Tapi skor Elo itu sendiri nyata terlepas dari itu.

Keterbatasan yang tidak bisa disembunyikan Elo

Elo mengukur satu hal: video mana yang lebih disukai pengguna nyata dalam perbandingan buta. Ia tidak mengukur bagaimana kinerja model dalam batch run. Ia tidak mengukur uptime API, latensi di bawah beban, atau apakah kualitas output tetap konsisten saat Anda menghasilkan dalam skala besar versus memilih contoh terbaik dari arena.

Sebuah model bisa memiliki hasil tes buta yang sangat baik dan sama sekali tidak dapat digunakan dalam produksi. Ini adalah pertanyaan yang terpisah.

Apa yang Tidak Dimaksud oleh “#1 di Papan Peringkat” untuk Developer

Di sinilah saya akan memperlambat langkah jika Anda akan membuat keputusan alat berdasarkan peringkat HappyHorse saat ini.

Tidak ada API, tidak ada akses produksi

Tiga hal yang akan mengubah HappyHorse dari “entri papan peringkat” menjadi “opsi nyata”: repositori GitHub dengan bobot dan kode inferensi yang sebenarnya, kartu model HuggingFace dengan detail yang dapat diverifikasi dan lisensi, atau endpoint API dengan harga yang terdokumentasi. Tidak ada satupun yang tersedia pada saat penulisan ini.

Jika Anda tidak bisa memanggilnya, Anda tidak bisa menggunakannya. Posisi papan peringkat adalah informasi tentang kualitas output, bukan ketersediaan.

Performa audio mengubah perhitungan

Jika alur kerja Anda memerlukan audio — pengisi suara, suara ambien, sinkronisasi bibir — keunggulan HappyHorse pada dasarnya menghilang. Selisih antara HappyHorse dan Seedance 2.0 dalam kategori dengan audio adalah 5 poin di T2V dan 2 poin di I2V. Itu adalah seri dalam variansi Elo normal.

Untuk kasus penggunaan yang memerlukan audio, medan praktis saat ini terlihat seperti seri antara Seedance dan HappyHorse di puncak, dengan SkyReels V4 selangkah di bawahnya.

Akuntabilitas tim: tidak diketahui

Artificial Analysis mendeskripsikan HappyHorse sebagai “pseudonim” saat menambahkan model ke arena. Satu set situs yang terhubung dengan model mengklaim model ini dibangun oleh tim Future Life Lab di Taotian Group (Alibaba), dipimpin oleh Zhang Di, mantan kepala Kling AI. Analisis lain menghubungkannya dengan proyek open-source Sand.ai bernama daVinci-MagiHuman, yang berbagi spesifikasi hampir identik. Tidak satupun yang dikonfirmasi secara resmi.

Untuk alat produksi, akuntabilitas tim penting untuk perbaikan bug, pembaruan model, dan dukungan jangka panjang. Dengan model pseudonim, Anda tidak memiliki kejelasan itu.

Cara Membaca Papan Peringkat Video sebagai Developer

Kerangka konkret, bukan abstraksi.

Gunakan Elo sebagai sinyal kualitas, bukan keputusan pengadaan. Jika sebuah model secara konsisten memenangkan perbandingan buta melawan pesaing bermodal besar, itu memberi tahu Anda sesuatu yang nyata tentang apa yang dihasilkannya. Itu layak dicatat. Itu tidak memberi tahu Anda apa pun tentang ketentuan API, harga, latensi, atau apakah tim merespons laporan bug.

Papan peringkat praktis dimulai dari #3. Dua model berkualitas tertinggi berdasarkan Elo — HappyHorse dan Seedance 2.0 — keduanya tidak dapat diakses melalui API publik. Tingkatan berikutnya — SkyReels V4, Kling 3.0, PixVerse V6 — adalah tempat keputusan integrasi nyata dibuat saat ini.

Kapan harus bertindak lebih awal pada pendatang baru di papan peringkat. Jika sebuah model berada di puncak dengan selisih Elo yang bermakna, memiliki rilis GitHub yang terverifikasi, dan dokumentasi tersedia — layak segera diuji. Jika berada di puncak tetapi GitHub mengatakan “coming soon” — atur pengingat untuk memeriksa dua minggu lagi. Jangan restrukturisasi pipeline berdasarkan sesuatu yang belum ada.

Periksa papan peringkat langsung secara langsung, bukan artikel. Termasuk artikel ini. Skor Elo berubah setiap hari. Angka-angka yang saya referensikan di sini mencerminkan awal April 2026 dan kemungkinan sudah berubah saat Anda membaca ini.

FAQ

Sudah berapa lama HappyHorse-1.0 ada di papan peringkat Artificial Analysis?

Artificial Analysis mengumumkannya pada 7 April 2026, mendeskripsikannya sebagai model pseudonim yang baru ditambahkan. Pada saat penulisan ini, model ini telah aktif selama sekitar 48 jam dan jumlah vote masih terus bertambah.

Bisakah sebuah model tetap di #1 di Elo tanpa batas waktu?

Biasanya tidak. Saat model-model baru masuk ke arena dan mengumpulkan lebih banyak vote, peringkat berubah. Model yang mendominasi di hari kedua dengan sampel kecil bisa stabil di posisi lebih rendah seiring bertambahnya kumpulan vote. Skornya selalu langsung — mencerminkan data terkini, bukan penilaian permanen.

Apakah Artificial Analysis memverifikasi siapa yang mengirimkan model ke arena?

Artificial Analysis belum menerbitkan kebijakan verifikasi formal untuk pengajuan model. Mereka mendeskripsikan HappyHorse-1.0 sebagai “pseudonim” saat mengumumkannya, yang menunjukkan identitas tim diketahui oleh mereka tetapi tidak diungkapkan secara publik. Apakah mereka melakukan audit teknis pada model yang diajukan tidak terdokumentasi.

Haruskah saya memilih model berdasarkan skor Elo saja?

Tidak. Elo memberi tahu Anda tentang preferensi visual dalam perbandingan buta. Ia tidak mengatakan apa pun tentang ketersediaan API, biaya per generasi, latensi, uptime, kebijakan konten, atau apakah model akan ada dalam tiga bulan. Ini hanya satu sinyal di antara beberapa sinyal.

Metrik apa lagi yang penting selain peringkat papan peringkat?

Akses dan dokumentasi API; harga per generasi atau per menit; latensi dan perilaku cold-start pada frekuensi penggunaan Anda; jumlah sampel di balik skor Elo (lebih banyak vote = lebih stabil); dan apakah tim memiliki rekam jejak dalam memelihara dan memperbarui model. Halaman perbandingan model WaveSpeed melacak beberapa dimensi ini di seluruh model yang dapat diakses jika Anda ingin titik awal.

Itulah kondisi saat ini. Model dengan tim yang tidak dikenal dan bobot yang tidak dipublikasikan baru saja menduduki puncak benchmark video paling kredibel yang kita miliki, dengan selisih yang sulit diabaikan. Apakah model ini menjadi opsi produksi nyata sepenuhnya bergantung pada apa yang dirilis dalam beberapa minggu ke depan.

Layak dipantau. Belum layak ditindaklanjuti.

Akan ada lebih banyak lagi.

Coba HappyHorse-1.0 di WaveSpeedAI

HappyHorse-1.0 kini tersedia di WaveSpeedAI:

Posting sebelumnya:

Cara Kerja Video Arena Artificial Analysis

Apa yang dilihat (dan tidak dilihat) pengguna

Elo: sinyal yang andal, tapi tidak sempurna

Jumlah vote dan ukuran sampel: bagian yang sering dilewati

Apa yang Sebenarnya Dinilai oleh HappyHorse-1.0

Cerita audio berbalik arah

Apa yang dikatakan klaim arsitektur (dan apa yang tidak dibuktikannya)

Mengapa Model yang Tidak Dikenal Bisa Menang di Elo

Pola ini pernah terjadi sebelumnya

Keterbatasan yang tidak bisa disembunyikan Elo

Apa yang Tidak Dimaksud oleh “#1 di Papan Peringkat” untuk Developer

Tidak ada API, tidak ada akses produksi

Performa audio mengubah perhitungan

Akuntabilitas tim: tidak diketahui

Cara Membaca Papan Peringkat Video sebagai Developer

FAQ

Coba HappyHorse-1.0 di WaveSpeedAI

Artikel Terkait

Memperkenalkan ByteDance Seedance 2.0 Mini di WaveSpeedAI

Penjelasan Fallback Claude Fable 5 ke Opus 4.8

API GLM-5.2: Harga, Konteks 1M, dan Perutean Produksi

Harga GPT-5.4 Mini: Biaya Input, Cache & Output

API MAI-Image-2.5: Yang Perlu Diketahui Para Developer

Harga MiniMax M3: Biaya API Konteks Panjang untuk Developer