計画・ツール利用・完了率(サンプルデータ)。
Agent quality is scenario-dependent (browser automation, code repositories, enterprise tools). Production data should split by scenario or document primary-scenario weights.
Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.
| 順位 | エージェント | プラットフォーム/チーム | 主シナリオ | スコア | メモ |
|---|---|---|---|---|---|
| 1 | Codex-Planner | Demo Lab | 開発自動化 | 93.1 | 複数ステップのコミットとロールバック |
| 2 | Sage-Research | Sage | 文献と検索 | 91.7 | 引用の追跡が可能 |
| 3 | Relay-Support | Relay | サポートとチケット | 90.4 | ナレッジベース連携 |
| 4 | Harbor-Ops | Harbor | 運用とトラブルシュート | 89.2 | ログ/メトリクスのツールチェーン |
| 5 | Atlas-Browse | Atlas | ブラウザ自動化 | 88 | 堅牢なウェブ操作 |
| 6 | Mosaic-Data | Mosaic | データ分析 | 86.8 | SQL/Notebook |
| 7 | Nimbus-Meeting | Nimbus | 会議と議事録 | 85.5 | 多言語の議事録 |
| 8 | Volt-Security | Volt | セキュリティ巡回 | 84.1 | ポリシー準拠チェック |