常见问题

下表为浏览排行榜与趋势页时的常见问题;与部署环境不一致时,以仓库内文档为准。

榜单分数是否为正式评测结果?

默认展示为示例数据,用于版面与构建流程演示,不代表任何厂商或产品的真实排序。

面向公众发布可采信排名时,须将 data/rankings 下 JSON 替换为正式评测或聚合输出,并在方法论中载明任务集、权重、日期及可复现步骤。

为何采用静态站点?

静态 HTML 有利于 SEO、首字节时间及全球 CDN 分发;排行榜与趋势数据可按日或按周由 CI 触发构建更新。

确需实时查询时,可在边缘层增加只读接口,同时建议在页面保留静态快照及来源说明以供审计。

切换语言是否会离开当前页面?

切换语言时保留语言段以外路径(例如 /zh/models//en/models/ 对应),便于对照阅读。

部分长文尚未翻译时,可能暂时与英文或其他默认文案一致,属渐进式本地化范畴。

如何理解「综合分」?是否可拆分子项?

综合分为多指标经归一化与加权后的标量,便于总览,亦可能掩盖单任务短板。生产环境建议在表格或详情中披露子分数或分任务排名。

混用多份公开基准时,须说明各基准版本及对缺失项的处理方式。

GitHub 趋势与模型榜单的关系?

模型 / Agent 榜单侧重能力评分或场景完成度;GitHub 趋势侧重开源社区活跃度与传播度,二者互补而非等价。

高星项目不代表模型能力最优;闭源或未托管于 GitHub 的成果亦不会计入趋势统计。

如何接入自有评测管线?

常规流程为:在 CI 中运行评测脚本生成 JSON,写入 data/rankings 或构建产物,触发 Astro 构建并部署静态输出。

从对象存储拉取当日快照时,须在来源页记录文件 URL 与校验和。

外链是否安全?

外链于新标签页打开,并带有 noopener/noreferrer。目标站点的可信度与隐私政策由访问者自行判断。

可否转载或嵌入排行榜?

须遵守上游数据与代码许可;转载时应附方法论与来源链接,并注明数据日期。演示数据应标明为示例。