Ranking de LLM

Capacidades de modelos de lenguaje grandes (datos de ejemplo).

Composite scores may decompose into reasoning, coding, multilingual, and safety dimensions; Methodology must cite benchmark versions and tool-use policy.

Actualizado:

Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.

PuestoModeloProveedorTamañoPuntuaciónNotas
1 Nova-Large-2 Nova AI ~400B MoE 95 Modo razonamiento
2 Summit-Pro Summit ~200B 93.4 Buena adherencia a instrucciones
3 DeepLine-R1 DeepLine ~70B 91.9 Pesos abiertos
4 Cedar-32B Cedar 32B 89.7 Equilibrio chino/inglés
5 Birch-Mini Birch 8B 87.3 Despliegue en dispositivo
6 Fjord-1.5 Fjord Labs 14B 86.1 Llamadas a herramientas
7 Ridge-Code Ridge 33B 85 Enfocado en código
8 Willow-Base Willow 3B 82.4 Latencia muy baja