常见问题
下表为浏览排行榜与趋势页时的常见问题;与部署环境不一致时,以仓库内文档为准。
榜单分数是否为正式评测结果?
默认展示为示例数据,用于版面与构建流程演示,不代表任何厂商或产品的真实排序。
面向公众发布可采信排名时,须将 data/rankings 下 JSON 替换为正式评测或聚合输出,并在方法论中载明任务集、权重、日期及可复现步骤。
为何采用静态站点?
静态 HTML 有利于 SEO、首字节时间及全球 CDN 分发;排行榜与趋势数据可按日或按周由 CI 触发构建更新。
确需实时查询时,可在边缘层增加只读接口,同时建议在页面保留静态快照及来源说明以供审计。
切换语言是否会离开当前页面?
切换语言时保留语言段以外路径(例如 /zh/models/ 与 /en/models/ 对应),便于对照阅读。
部分长文尚未翻译时,可能暂时与英文或其他默认文案一致,属渐进式本地化范畴。
如何理解「综合分」?是否可拆分子项?
综合分为多指标经归一化与加权后的标量,便于总览,亦可能掩盖单任务短板。生产环境建议在表格或详情中披露子分数或分任务排名。
混用多份公开基准时,须说明各基准版本及对缺失项的处理方式。
GitHub 趋势与模型榜单的关系?
模型 / Agent 榜单侧重能力评分或场景完成度;GitHub 趋势侧重开源社区活跃度与传播度,二者互补而非等价。
高星项目不代表模型能力最优;闭源或未托管于 GitHub 的成果亦不会计入趋势统计。
如何接入自有评测管线?
常规流程为:在 CI 中运行评测脚本生成 JSON,写入 data/rankings 或构建产物,触发 Astro 构建并部署静态输出。
从对象存储拉取当日快照时,须在来源页记录文件 URL 与校验和。
外链是否安全?
外链于新标签页打开,并带有 noopener/noreferrer。目标站点的可信度与隐私政策由访问者自行判断。
可否转载或嵌入排行榜?
须遵守上游数据与代码许可;转载时应附方法论与来源链接,并注明数据日期。演示数据应标明为示例。