六类榜单分别对应模型、Agent、LLM、工具链、Token provider、模型聚合;各类列字段可独立扩展(厂商、场景、规模、覆盖环节、鉴权形态、聚合范围等)。
综合分由可配置权重与归一化得出;若接入多份基准,须声明基准版本、权重及缺失值处理规则。
本页说明示例排行榜与生产数据口径的衔接方式;发布正式分数时,应与同一套文档保持一致。
全站列表统一要求可排名且可审计。以下公式在页面和代码中公开,支持复核。
排序方向:综合分降序。
综合分定义:先对各子指标做 Min-Max 归一化,再按权重加权求和。若出现同分,按最近窗口活跃度(如近 30 天提交)降序打破平局。
组内公式:Score = 100 × [0.30·Stars + 0.15·Forks + 0.30·Commits30d + 0.15·Contributors + 0.05·(1-Issues) + 0.05·(1-PRs)]。
其中各指标均为组内 Min-Max 归一化值;Issues/PR 为逆向指标,值越小得分越高。
六类榜单分别对应模型、Agent、LLM、工具链、Token provider、模型聚合;各类列字段可独立扩展(厂商、场景、规模、覆盖环节、鉴权形态、聚合范围等)。
综合分由可配置权重与归一化得出;若接入多份基准,须声明基准版本、权重及缺失值处理规则。
静态构建:将 JSON 或构建时拉取结果写入仓库后执行 SSG。
定时任务:可通过 GitHub Actions 运行评测或聚合,写入产物并触发构建;边缘侧只读存储须与「静态优先」原则一并评估。
「来源」页应列明主来源、抓取时间及版本号;若存在缓存或抽样,须予说明。读者可按「方法论—来源」路径交叉核对。
常见偏差包括:评测集泄露、对公开评测过拟合、厂商自报分数与独立复现不一致,以及综合分掩盖单任务短板。缓解措施包括:固定任务版本、公开随机种子与脚本、分任务披露子分数,并定期复核第三方基准更新说明。
GitHub 类指标易受短期营销或刷星影响,须与提交、Issue、Release 等多信号交叉验证。