Planificación, herramientas y finalización (datos de ejemplo).
Agent quality is scenario-dependent (browser automation, code repositories, enterprise tools). Production data should split by scenario or document primary-scenario weights.
Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.
| Puesto | Agente | Plataforma / equipo | Escenario principal | Puntuación | Notas |
|---|---|---|---|---|---|
| 1 | Codex-Planner | Demo Lab | Automatización de I+D | 93.1 | Commits multietapa y rollback |
| 2 | Sage-Research | Sage | Literatura y recuperación | 91.7 | Citas rastreables |
| 3 | Relay-Support | Relay | Soporte y tickets | 90.4 | Integración con base de conocimiento |
| 4 | Harbor-Ops | Harbor | Operaciones e incidencias | 89.2 | Cadena de logs/métricas |
| 5 | Atlas-Browse | Atlas | Automatización de navegador | 88 | Acciones web robustas |
| 6 | Mosaic-Data | Mosaic | Análisis de datos | 86.8 | SQL/Notebook |
| 7 | Nimbus-Meeting | Nimbus | Reuniones y notas | 85.5 | Notas multilingües |
| 8 | Volt-Security | Volt | Barrido de seguridad | 84.1 | Comprobaciones de cumplimiento |