LLM 排行榜

大语言模型综合能力;当前为示例数据,可与公开基准对齐后替换。

综合能力可拆解为推理、代码、多语言、安全对齐等子维度;引用公开基准时,方法论须载明题库版本及是否允许工具调用。

数据更新:

排名规则公开:榜单按综合分降序排序;综合分由归一化后的子指标按预设权重加权汇总。若分数相同,优先近 30 天活跃度更高者。

排名模型厂商规模综合分备注
1 Nova-Large-2 Nova AI ~400B MoE 95 推理模式
2 Summit-Pro Summit ~200B 93.4 指令跟随强
3 DeepLine-R1 DeepLine ~70B 91.9 开源权重
4 Cedar-32B Cedar 32B 89.7 中英均衡
5 Birch-Mini Birch 8B 87.3 端侧部署
6 Fjord-1.5 Fjord Labs 14B 86.1 工具调用
7 Ridge-Code Ridge 33B 85 代码专项
8 Willow-Base Willow 3B 82.4 极低延迟