Рейтинг агентов

Планирование, инструменты, завершение; демонстрационные данные; опциональное разбиение по доменам.

Качество агента зависит от сценария (автоматизация браузера, репозитории кода, корпоративные инструменты). Для производственных данных рекомендуется разбиение по сценарию или документирование весов основного сценария.

Обновлено:

Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.

РангАгентПлатформа / командаОсновной сценарийБаллЗаметки
1 Codex-Planner Demo Lab 研发自动化 93.1 多步提交与回滚
2 Sage-Research Sage 文献与检索 91.7 引用可追溯
3 Relay-Support Relay 客服与工单 90.4 知识库联动
4 Harbor-Ops Harbor 运维与排障 89.2 日志/指标工具链
5 Atlas-Browse Atlas 浏览器自动化 88 网页操作鲁棒
6 Mosaic-Data Mosaic 数据分析 86.8 SQL/Notebook
7 Nimbus-Meeting Nimbus 会议与纪要 85.5 多语言纪要
8 Volt-Security Volt 安全巡检 84.1 策略合规检查