Методология

Настоящая страница определяет соотношение демонстрационных рейтингов и производственных оценок; опубликованные баллы должны соответствовать тому же комплекту документации.

Public ranking algorithms

All site lists are rankable and auditable. The formulas below are publicly documented in both UI and source code.

  • Leaderboards (Model / Agent / LLM / Toolchain)

    Sort order: composite score descending.

    Composite score: normalize each sub-metric with min-max, then compute a weighted sum. Ties are broken by higher recent activity (e.g., commits in the last 30 days).

  • Trend groups (GitHub)

    Within-group formula: Score = 100 × [0.30·Stars + 0.15·Forks + 0.30·Commits30d + 0.15·Contributors + 0.05·(1-Issues) + 0.05·(1-PRs)].

    All terms are min-max normalized within the same group; Issues/PR are inverse signals (lower is better).

Слои и измерения

Четыре доски соответствуют Models, Agents, LLMs, Toolchains; столбцы могут расширяться независимо (вендор, домен, размер, охват и т. д.).

Сводный балл формируется из настраиваемых весов и нормализации; при нескольких бенчмарках указываются версии, веса и обработка пропусков.

Обновления и релиз

Статическая сборка: JSON или артефакты в репозитории, затем SSG.

По расписанию: GitHub Actions для evaluators и агрегации, запись артефактов и триггер сборки; read-only D1/KV на edge оценивается с учётом цели «статика в приоритете».

Проверяемость

На странице «Источники» перечисляются первичные источники, время выборки и версии; при кэшировании или сэмплировании это раскрывается. Читатель сверяет «Методология» и «Источники».

Смещения и смягчение

Типичные проблемы: утечки бенчмарков, переобучение на публичных наборах, заявленные вендором баллы против независимого воспроизведения, сводный балл, скрывающий слабые задачи. Меры: фиксация версий задач, публикация сидов и скриптов, раскрытие per-task баллов, регулярный пересмотр changelog сторонних таблиц.

Активность на GitHub можно искусственно завышать; звёзды сверяются с коммитами, issues/PR и релизами.