Методология

Настоящая страница определяет соотношение демонстрационных рейтингов и производственных оценок; опубликованные баллы должны соответствовать тому же комплекту документации.

Public ranking algorithms

All site lists are rankable and auditable. The formulas below are publicly documented in both UI and source code.

Leaderboards (Model / Agent / LLM / Toolchain)

Sort order: composite score descending.
Composite score: normalize each sub-metric with min-max, then compute a weighted sum. Ties are broken by higher recent activity (e.g., commits in the last 30 days).
Trend groups (GitHub)

Within-group formula: Score = 100 × [0.30·Stars + 0.15·Forks + 0.30·Commits30d + 0.15·Contributors + 0.05·(1-Issues) + 0.05·(1-PRs)].
All terms are min-max normalized within the same group; Issues/PR are inverse signals (lower is better).

Слои и измерения

Четыре доски соответствуют Models, Agents, LLMs, Toolchains; столбцы могут расширяться независимо (вендор, домен, размер, охват и т. д.).

Сводный балл формируется из настраиваемых весов и нормализации; при нескольких бенчмарках указываются версии, веса и обработка пропусков.

Обновления и релиз

Статическая сборка: JSON или артефакты в репозитории, затем SSG.

По расписанию: GitHub Actions для evaluators и агрегации, запись артефактов и триггер сборки; read-only D1/KV на edge оценивается с учётом цели «статика в приоритете».

Проверяемость

На странице «Источники» перечисляются первичные источники, время выборки и версии; при кэшировании или сэмплировании это раскрывается. Читатель сверяет «Методология» и «Источники».

Смещения и смягчение

Типичные проблемы: утечки бенчмарков, переобучение на публичных наборах, заявленные вендором баллы против независимого воспроизведения, сводный балл, скрывающий слабые задачи. Меры: фиксация версий задач, публикация сидов и скриптов, раскрытие per-task баллов, регулярный пересмотр changelog сторонних таблиц.

Активность на GitHub можно искусственно завышать; звёзды сверяются с коммитами, issues/PR и релизами.

Public ranking algorithms

Leaderboards (Model / Agent / LLM / Toolchain)

Trend groups (GitHub)

Слои и измерения

Обновления и релиз

Проверяемость

Смещения и смягчение