规划、工具调用与任务完成率;当前为示例数据,可按领域拆分子榜。
Agent 评价高度依赖场景(浏览器自动化、代码仓库、企业工具链等)。载入正式数据时建议按场景拆分或载明主场景权重。
排名规则公开:榜单按综合分降序排序;综合分由归一化后的子指标按预设权重加权汇总。若分数相同,优先近 30 天活跃度更高者。
| 排名 | Agent | 平台 / 团队 | 主场景 | 综合分 | 备注 |
|---|---|---|---|---|---|
| 1 | Codex-Planner | Demo Lab | 研发自动化 | 93.1 | 多步提交与回滚 |
| 2 | Sage-Research | Sage | 文献与检索 | 91.7 | 引用可追溯 |
| 3 | Relay-Support | Relay | 客服与工单 | 90.4 | 知识库联动 |
| 4 | Harbor-Ops | Harbor | 运维与排障 | 89.2 | 日志/指标工具链 |
| 5 | Atlas-Browse | Atlas | 浏览器自动化 | 88 | 网页操作鲁棒 |
| 6 | Mosaic-Data | Mosaic | 数据分析 | 86.8 | SQL/Notebook |
| 7 | Nimbus-Meeting | Nimbus | 会议与纪要 | 85.5 | 多语言纪要 |
| 8 | Volt-Security | Volt | 安全巡检 | 84.1 | 策略合规检查 |