Planung, Tool-Nutzung, Abschluss (Beispieldaten).
Agent quality is scenario-dependent (browser automation, code repositories, enterprise tools). Production data should split by scenario or document primary-scenario weights.
Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.
| Rang | Agent | Plattform / Team | Hauptszenario | Punktzahl | Hinweise |
|---|---|---|---|---|---|
| 1 | Codex-Planner | Demo Lab | FuE-Automatisierung | 93.1 | Mehrstufige Commits und Rollback |
| 2 | Sage-Research | Sage | Literatur und Retrieval | 91.7 | Nachvollziehbare Zitate |
| 3 | Relay-Support | Relay | Support und Tickets | 90.4 | Anbindung an Wissensdatenbank |
| 4 | Harbor-Ops | Harbor | Betrieb und Troubleshooting | 89.2 | Logs/Metriken-Toolchain |
| 5 | Atlas-Browse | Atlas | Browser-Automatisierung | 88 | Robuste Web-Aktionen |
| 6 | Mosaic-Data | Mosaic | Datenanalyse | 86.8 | SQL/Notebook |
| 7 | Nimbus-Meeting | Nimbus | Meetings und Notizen | 85.5 | Mehrsprachige Notizen |
| 8 | Volt-Security | Volt | Security-Scanning | 84.1 | Richtlinien-Compliance-Checks |