方法论

本页说明示例排行榜与生产数据口径的衔接方式；发布正式分数时，应与同一套文档保持一致。

公开排名算法

全站列表统一要求可排名且可审计。以下公式在页面和代码中公开，支持复核。

排行榜（Model / Agent / LLM / Toolchain）

排序方向：综合分降序。
综合分定义：先对各子指标做 Min-Max 归一化，再按权重加权求和。若出现同分，按最近窗口活跃度（如近 30 天提交）降序打破平局。
趋势分组榜（GitHub）

组内公式：Score = 100 × [0.30·Stars + 0.15·Forks + 0.30·Commits30d + 0.15·Contributors + 0.05·(1-Issues) + 0.05·(1-PRs)]。
其中各指标均为组内 Min-Max 归一化值；Issues/PR 为逆向指标，值越小得分越高。

分层与维度

六类榜单分别对应模型、Agent、LLM、工具链、Token provider、模型聚合；各类列字段可独立扩展（厂商、场景、规模、覆盖环节、鉴权形态、聚合范围等）。

综合分由可配置权重与归一化得出；若接入多份基准，须声明基准版本、权重及缺失值处理规则。

更新与发布

静态构建：将 JSON 或构建时拉取结果写入仓库后执行 SSG。

定时任务：可通过 GitHub Actions 运行评测或聚合，写入产物并触发构建；边缘侧只读存储须与「静态优先」原则一并评估。

可验证性与透明度

「来源」页应列明主来源、抓取时间及版本号；若存在缓存或抽样，须予说明。读者可按「方法论—来源」路径交叉核对。

典型偏差与缓解

常见偏差包括：评测集泄露、对公开评测过拟合、厂商自报分数与独立复现不一致，以及综合分掩盖单任务短板。缓解措施包括：固定任务版本、公开随机种子与脚本、分任务披露子分数，并定期复核第三方基准更新说明。

GitHub 类指标易受短期营销或刷星影响，须与提交、Issue、Release 等多信号交叉验证。