Chaînes d’évaluation et de livraison (données, entraînement, éval, release).
Entries may be suites, platforms, or OSS bundles; the coverage column indicates reach across data, training, evaluation, and deployment stages.
Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.
| Rang | Toolchain / suite | Mainteneur | Couverture | Score | Notes |
|---|---|---|---|---|---|
| 1 | PipelineOne Enterprise | PipelineOne | Données → entraînement → évaluation → mise en production | 92.5 | Gouvernance et audit d’entreprise |
| 2 | BenchForge Suite | BenchForge | Construction de benchmarks et régression | 91.2 | Scores reproductibles |
| 3 | EvalMesh | EvalMesh OSS | Orchestration d’évaluation et rapports | 89.8 | Tâches extensibles |
| 4 | TrainRelay | Relay Systems | Entraînement et checkpoints | 88.4 | Planification multi-cloud |
| 5 | ArtifactHub CI | ArtifactHub | Build / images / déploiement | 87 | Intégration hébergement type Pages |
| 6 | DataWeave | Weave Data | Nettoyage et étiquetage des données | 85.6 | Confidentialité et anonymisation |
| 7 | GuardRails Lab | GuardRails | Sécurité et évaluation red team | 84.3 | Politiques et suites jailbreak |
| 8 | TraceKit | TraceKit | Observabilité et coût d’inférence | 83.1 | Analyse tokens et latence |