大语言模型综合能力;当前为示例数据,可与公开基准对齐后替换。
综合能力可拆解为推理、代码、多语言、安全对齐等子维度;引用公开基准时,方法论须载明题库版本及是否允许工具调用。
排名规则公开:榜单按综合分降序排序;综合分由归一化后的子指标按预设权重加权汇总。若分数相同,优先近 30 天活跃度更高者。
| 排名 | 模型 | 厂商 | 规模 | 综合分 | 备注 |
|---|---|---|---|---|---|
| 1 | Nova-Large-2 | Nova AI | ~400B MoE | 95 | 推理模式 |
| 2 | Summit-Pro | Summit | ~200B | 93.4 | 指令跟随强 |
| 3 | DeepLine-R1 | DeepLine | ~70B | 91.9 | 开源权重 |
| 4 | Cedar-32B | Cedar | 32B | 89.7 | 中英均衡 |
| 5 | Birch-Mini | Birch | 8B | 87.3 | 端侧部署 |
| 6 | Fjord-1.5 | Fjord Labs | 14B | 86.1 | 工具调用 |
| 7 | Ridge-Code | Ridge | 33B | 85 | 代码专项 |
| 8 | Willow-Base | Willow | 3B | 82.4 | 极低延迟 |