Планирование, инструменты, завершение; демонстрационные данные; опциональное разбиение по доменам.
Качество агента зависит от сценария (автоматизация браузера, репозитории кода, корпоративные инструменты). Для производственных данных рекомендуется разбиение по сценарию или документирование весов основного сценария.
Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.
| Ранг | Агент | Платформа / команда | Основной сценарий | Балл | Заметки |
|---|---|---|---|---|---|
| 1 | Codex-Planner | Demo Lab | 研发自动化 | 93.1 | 多步提交与回滚 |
| 2 | Sage-Research | Sage | 文献与检索 | 91.7 | 引用可追溯 |
| 3 | Relay-Support | Relay | 客服与工单 | 90.4 | 知识库联动 |
| 4 | Harbor-Ops | Harbor | 运维与排障 | 89.2 | 日志/指标工具链 |
| 5 | Atlas-Browse | Atlas | 浏览器自动化 | 88 | 网页操作鲁棒 |
| 6 | Mosaic-Data | Mosaic | 数据分析 | 86.8 | SQL/Notebook |
| 7 | Nimbus-Meeting | Nimbus | 会议与纪要 | 85.5 | 多语言纪要 |
| 8 | Volt-Security | Volt | 安全巡检 | 84.1 | 策略合规检查 |