Почему HappyHorse-1.0 внезапно занял #1 в рейтинге видеомоделей?

Привет, ребята. Это Дора. Я подсчитала, сколько раз на этой неделе кто-то в моей ленте задавал вопрос вроде «что, чёрт возьми, такое HappyHorse?» Шесть раз. Шесть отдельных тредов. И к каждому был прикреплён немного другой слух — это WAN 2.7, это тихий релиз от ByteDance, это что-то из Alibaba. Никто не знает наверняка. В чём все сходятся: он появился в видеолидерборде Artificial Analysis примерно 7–8 апреля 2026 года и сразу занял первое место в категориях Text-to-Video и Image-to-Video.

Это факт. Всё остальное — кто создал, когда выйдут веса, останется ли на первом месте — по-прежнему не определено.

Эта статья о том, что на самом деле измеряет лидерборд, почему неизвестная модель может законно оказаться на его вершине, и что вам стоит и не стоит делать с этой информацией как разработчику.

Как работает Video Arena от Artificial Analysis

Прежде чем доверять рейтингу, нужно понять, что именно он измеряет. Video Arena от Artificial Analysis — это не бенчмарк, где разработчик модели сам подаёт свои результаты, а система слепого голосования пользователей.

Что видят (и не видят) пользователи

Вы заходите в арену, вам показывают два видео, сгенерированных по одному текстовому промпту или входному изображению, и вы выбираете, какое вам нравится больше. Вы не знаете, какую модель какое видео создало. Никаких подписей. Никакого контекста. Только два ролика.

Вот как сам Artificial Analysis описывает это: «Пользователи сравнивают два видео, созданных по одному текстовому промпту, не зная, какая модель создала каждое из них». Именно это и важно. Никаких самостоятельных отчётов, никаких бенчмарков от разработчика, никаких маркетинговых страниц, влияющих на результат.

Elo: надёжный сигнал, но не безупречный

В рейтинге используется система Elo — тот же подход, заимствованный из шахматных соревнований. Каждый раз, когда две модели сходятся в голосовании, победитель получает очки Elo, а проигравший теряет. Модель с высоким Elo стабильно побеждала в большем количестве матчей, чем проигрывала.

Более высокий балл Elo означает, что модель предпочитают чаще. Это реальный сигнал. Он основан на тысячах реальных выборов людей, а не синтетических тестах, не подобранных примерах и не карточке модели.

Количество голосов и размер выборки: то, что люди пропускают

Вот в чём дело с Elo для новых участников. У устоявшихся моделей вроде Seedance 2.0 за их оценками стоят тысячи голосов — у Seedance 2.0 более 7500 голосов в категории T2V. Количество голосов за HappyHorse пока публично не разбито. Больше голосов = более стабильный балл. Новая модель с меньшим количеством матчей может колебаться сильнее с каждым новым голосом.

Эти цифры изменятся по мере поступления новых голосов. Направление этих изменений неизвестно. Помните об этом, прежде чем принимать решения о пайплайне на основе числа, которому два дня от роду.

Что на самом деле показывает рейтинг HappyHorse-1.0

Текущие цифры, взятые из живого лидерборда на начало апреля 2026 года:

T2V (без аудио): HappyHorse-1.0 лидирует с рейтингом Elo 1357, опережая Dreamina Seedance 2.0 с показателем 1273, SkyReels V4 — 1244 и Kling 3.0 Pro — 1243.

I2V (без аудио): HappyHorse-1.0 лидирует с Elo 1402, тогда как Seedance 2.0 набирает 1355, а Grok Imagine Video — 1331.

Разрыв в 84 пункта в I2V без аудио — это немало. Разрыв в 60 пунктов Elo означает, что одна модель выигрывает примерно в 58–59% слепых противостояний — это существенно. Разрыв в 80+ пунктов — ещё более весомый.

Картина меняется с аудио

В категории Image-to-Video с аудио HappyHorse-1.0 сейчас лидирует с показателем Elo 1160, тогда как Dreamina Seedance 2.0 набирает 1158. Разрыв в 2 пункта — это статистический шум. А в T2V с аудио Seedance 2.0 лидирует с 1220, тогда как HappyHorse набирает 1215.

Так что картина более неоднозначна, чем «HappyHorse №1 везде». Он №1 со значительным отрывом, когда аудио исключено. Когда в уравнение входит качество звука, он по сути в ничью с Seedance 2.0.

Что говорят заявления об архитектуре (и чего они не доказывают)

На нескольких сайтах, описывающих HappyHorse, утверждается, что он работает на основе однопоточной архитектуры Transformer с приблизительно 15 миллиардами параметров, а заявленная скорость генерации — около 38 секунд для клипа в 1080p на одном H100. По состоянию на 8 апреля 2026 года ссылки на GitHub и Hugging Face на этих сайтах ведут на страницы «скоро» или возвращают ошибку 404. Веса не доступны для публичного скачивания.

Эти заявления об архитектуре правдоподобны — но не подтверждены. Независимый технический аудит не подтвердил ни количество параметров, ни тип архитектуры, ни скорость инференса. Считайте их заявленными, а не подтверждёнными.

Почему неизвестные модели могут побеждать в рейтинге Elo

Это то, что сбивает с толку тех, кто думает, что лидерборды вознаграждают узнаваемость бренда.

Elo не интересует, кто создал модель. Ему всё равно, вы Google или трёхчеловечная лаборатория. Video Arena от Artificial Analysis использует систему рейтинга Elo и полностью полагается на слепые голоса реальных пользователей. Она игнорирует параметры, статьи или хайп — её волнует только один вопрос: «Какое видео вы предпочли, посмотрев оба?»

Это, на самом деле, плюс. Это одна из немногих систем оценки, где хорошо финансируемый бренд не может купить лучший результат, опубликовав выгодную для себя статью.

Такое случалось раньше

Анонимные дропы перед запуском стали закономерностью в китайской экосистеме ИИ. Ситуация с Pony Alpha в феврале 2026 года — наиболее очевидный прецедент: загадочная модель появилась на OpenRouter, спровоцировала игру в угадайку и оказалась GLM-5 от Z.ai, проводившей скрытый стресс-тест. HappyHorse вписывается в этот шаблон: неизвестное название, никакой атрибуции команды при запуске, лендинг со ссылками на GitHub с пометкой «скоро», сильные результаты.

Это крупная лаборатория проводит тихую проверку возможностей или действительно новая команда — пока не ясно. Но сам балл Elo реален вне зависимости от этого.

Ограничение, которое Elo не скрывает

Elo измеряет одно: какое видео реальные пользователи предпочли при слепом сравнении. Он не измеряет, как модель работает в пакетных запусках. Он не измеряет время безотказной работы API, задержку под нагрузкой или то, сохраняется ли качество вывода при масштабной генерации, а не при выборке примеров для арены.

Модель может показывать отличные результаты в слепых тестах и быть совершенно непригодной в production. Это разные вопросы.

Что «Лидерборд №1» не означает для разработчиков

Здесь я бы притормозила, если вы собираетесь принять решение об инструменте на основе текущего рейтинга HappyHorse.

Нет API, нет доступа в production

Три вещи могут перевести HappyHorse из «записи в лидерборде» в «реальный вариант»: репозиторий GitHub с реальными весами и кодом инференса, карточка модели на HuggingFace с проверяемыми деталями и лицензией, или API-эндпоинт с задокументированными ценами. Ничего из этого не существует на момент написания статьи.

Если это нельзя вызвать, значит нельзя использовать. Позиция в лидерборде — это информация о качестве вывода, а не о доступности.

Производительность с аудио меняет расчёты

Если ваш рабочий процесс требует аудио — закадровый голос, фоновый звук, синхронизация губ — преимущество HappyHorse фактически исчезает. Разрыв между ним и Seedance 2.0 в категориях с аудио составляет 5 пунктов в T2V и 2 пункта в I2V. Это ничья в пределах нормальной дисперсии Elo.

Для задач, требующих аудио, практическая картина сейчас выглядит как ничья Seedance/HappyHorse на вершине, тогда как SkyReels V4 заметно отстаёт.

Ответственность команды: неизвестна

Artificial Analysis охарактеризовал HappyHorse как «псевдонимную» модель при её добавлении в арену. Один набор сайтов, связанных с моделью, утверждает, что она была создана командой Future Life Lab в Taotian Group (Alibaba) под руководством Чжан Ди, бывшего руководителя Kling AI. Другой анализ связал её с опенсорсным проектом Sand.ai под названием daVinci-MagiHuman, характеристики которого практически идентичны. Ни то ни другое официально не подтверждено.

Для production-инструмента ответственность команды важна для исправления ошибок, обновлений модели и долгосрочной поддержки. С псевдонимными моделями такой ясности нет.

Как читать видеолидерборд как разработчик

Конкретный фреймворк, без абстракций.

Используйте Elo как сигнал о качестве, а не как решение о закупке. Если модель стабильно побеждает в слепых сравнениях с хорошо финансируемыми конкурентами, это говорит вам кое-что реальное о том, что она производит. Это стоит отметить. Но это ничего не говорит вам об условиях API, ценах, задержке или о том, отвечает ли команда на сообщения об ошибках.

Практический лидерборд начинается с №3. Две модели с наивысшим качеством по Elo — HappyHorse и Seedance 2.0 — обе недоступны через публичный API. Следующий уровень — SkyReels V4, Kling 3.0, PixVerse V6 — именно там сейчас принимаются реальные решения об интеграции.

Когда стоит действовать заблаговременно при появлении нового участника лидерборда. Если модель находится на вершине со значительным разрывом в Elo, имеет подтверждённый релиз на GitHub и существует документация — стоит тестировать немедленно. Если она на вершине, но GitHub говорит «скоро» — установите напоминание проверить через две недели. Не перестраивайте пайплайн ради обещаний.

Проверяйте живой лидерборд напрямую, а не через статьи. Включая эту. Показатели Elo меняются ежедневно. Цифры, которые я привожу здесь, отражают начало апреля 2026 года и к моменту, когда вы это читаете, уже изменятся.

Часто задаваемые вопросы

Как долго HappyHorse-1.0 находится в лидерборде Artificial Analysis?

Artificial Analysis анонсировал его 7 апреля 2026 года, описав как новую добавленную псевдонимную модель. На момент написания статьи он находится в живом режиме около 48 часов, и количество голосов продолжает накапливаться.

Может ли модель оставаться на первом месте в Elo бесконечно?

Обычно нет. По мере того как новые модели входят в арену и набирают больше голосов, рейтинги меняются. Модель, которая доминирует на второй день при небольшой выборке, может стабилизироваться на более низкой позиции по мере углубления пула голосов. Балл всегда живой — он отражает текущие данные, а не постоянный вердикт.

Проверяет ли Artificial Analysis, кто отправляет модели в арену?

Artificial Analysis не опубликовал формальную политику проверки для подачи моделей. При анонсировании они описали HappyHorse-1.0 как «псевдонимную», что подразумевает: личность команды известна им, но публично не раскрывается. Проводят ли они технический аудит представленных моделей — не задокументировано.

Стоит ли выбирать модель только на основе балла Elo?

Нет. Elo говорит о визуальных предпочтениях при слепых сравнениях. Он ничего не говорит о доступности API, стоимости генерации, задержке, времени безотказной работы, политике контента или о том, будет ли модель существовать через три месяца. Это один сигнал из нескольких.

Какие ещё метрики важны наряду с позицией в лидерборде?

Доступность API и документация; цена за генерацию или за минуту; задержка и поведение при холодном старте с учётом частоты вашего использования; количество голосов за баллом Elo (больше голосов = более стабильный); и есть ли у команды история поддержки и обновления модели. Страница сравнения моделей WaveSpeed отслеживает несколько из этих параметров по доступным моделям, если вам нужна отправная точка.

Вот где всё стоит сейчас. Модель с неизвестной командой и без публичных весов только что возглавила самый авторитетный видеобенчмарк, который у нас есть, с отрывом, который сложно игнорировать. Станет ли она реальным production-вариантом — целиком зависит от того, что будет выпущено в ближайшие несколько недель.

Стоит наблюдать. Действовать пока не стоит.

Продолжение следует.

Попробуйте HappyHorse-1.0 на WaveSpeedAI

HappyHorse-1.0 теперь доступен на WaveSpeedAI:

Предыдущие статьи: