Рейтинг LLM

Возможности больших языковых моделей; демонстрационные данные; замена с выравниванием по публичным бенчмаркам.

Сводный балл может быть разложен на рассуждения, код, мультиязычность, безопасность; в «Методология» указываются версии бенчмарков и политика использования инструментов.

Обновлено:

Public ranking policy: rows are sorted by composite score (desc). Composite score is a weighted sum of normalized sub-metrics; ties are broken by higher recent activity.

РангМодельВендорРазмерБаллЗаметки
1 Nova-Large-2 Nova AI ~400B MoE 95 推理模式
2 Summit-Pro Summit ~200B 93.4 指令跟随强
3 DeepLine-R1 DeepLine ~70B 91.9 开源权重
4 Cedar-32B Cedar 32B 89.7 中英均衡
5 Birch-Mini Birch 8B 87.3 端侧部署
6 Fjord-1.5 Fjord Labs 14B 86.1 工具调用
7 Ridge-Code Ridge 33B 85 代码专项
8 Willow-Base Willow 3B 82.4 极低延迟