方法論

ランキングの読み方と、運用データの公開方針を定義します。実スコア公開時も同じ説明を読者に提供してください。

Public ranking algorithms

All site lists are rankable and auditable. The formulas below are publicly documented in both UI and source code.

  • Leaderboards (Model / Agent / LLM / Toolchain)

    Sort order: composite score descending.

    Composite score: normalize each sub-metric with min-max, then compute a weighted sum. Ties are broken by higher recent activity (e.g., commits in the last 30 days).

  • Trend groups (GitHub)

    Within-group formula: Score = 100 × [0.30·Stars + 0.15·Forks + 0.30·Commits30d + 0.15·Contributors + 0.05·(1-Issues) + 0.05·(1-PRs)].

    All terms are min-max normalized within the same group; Issues/PR are inverse signals (lower is better).

レイヤーと次元

六つのボードはモデル/エージェント/LLM/ツールチェーン/トークン プロバイダ/モデル集約に対応し、列は独立拡張できます(ベンダー、ドメイン、規模、カバレッジ、認証の形、集約範囲など)。

総合スコアは重み付けと正規化で算出します。複数ベンチを併用する場合は、バージョン、重み、欠損処理を明記してください。

更新とリリース

静的ビルド:JSON や取得結果をコミットして SSG。

定期ジョブ:GitHub Actions で評価や集約を実行し、成果物を書き込んでビルドを起動。エッジの D1/KV は読み取り専用なら可ですが、静的優先の方針と両立させてください。

検証可能性

出典ページに主ソース、取得時刻、バージョンを列挙し、キャッシュやサンプリングがあれば開示します。読者は「方法論 ↔ 出典」で突き合わせられます。

典型的なバイアスと緩和

よくある偏り:ベンチデータのリーク、公開ベンチへの過適合、ベンダー公表スコアと独立再現の不一致、総合点が単一タスクの弱点を隠すこと。緩和:タスク版の固定、乱数シードとスクリプトの公開、サブスコアの開示、第三者ベンチ更新の定期確認。

GitHub 系指標は短期キャンペーンの影響を受けやすいため、コミット、Issue、リリースなど複数シグナルで照合してください。