Classement LLM

Capacités des grands modèles de langage (données d’exemple).

Composite scores may decompose into reasoning, coding, multilingual, and safety dimensions; Methodology must cite benchmark versions and tool-use policy.

Mis à jour :

Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.

RangModèleÉditeurTailleScoreNotes
1 Nova-Large-2 Nova AI ~400B MoE 95 Mode raisonnement
2 Summit-Pro Summit ~200B 93.4 Bon suivi d’instructions
3 DeepLine-R1 DeepLine ~70B 91.9 Poids ouverts
4 Cedar-32B Cedar 32B 89.7 Équilibre chinois/anglais
5 Birch-Mini Birch 8B 87.3 Déploiement sur appareil
6 Fjord-1.5 Fjord Labs 14B 86.1 Appels d’outils
7 Ridge-Code Ridge 33B 85 Orienté code
8 Willow-Base Willow 3B 82.4 Très faible latence