文本 (LLM)、图像、视频、多模态 — 入口与 Model 总榜并列。
Model 总榜
跨任务综合表现(多模态 / 视觉 / 语言);当前为示例数据,可替换为正式评测输出。
本榜为跨任务总览;多模态、视觉、语言等子能力可按评测方案拆分为多列或子榜,接入评测 JSON 后生效。
排名规则公开:榜单按综合分降序排序;综合分由归一化后的子指标按预设权重加权汇总。若分数相同,优先近 30 天活跃度更高者。
| 排名 | 模型 | 厂商 / 团队 | 类型 | 综合分 | 备注 |
|---|---|---|---|---|---|
| 1 | Demo-Vision-Pro | Demo Lab | 多模态 | 94.2 | 图像+文本均衡 |
| 2 | NorthStar-MM | North AI | 多模态 | 92.8 | 长上下文场景强 |
| 3 | Aurora-VL-7B | Aurora | 视觉语言 | 91.5 | 端侧友好 |
| 4 | Helix-3 | Helix Research | 通用 | 90.1 | 工具调用稳定 |
| 5 | Kite-Small | Kite | 语言 | 88.6 | 性价比突出 |
| 6 | Lattice-R1 | Lattice | 推理 | 87.9 | 数学/代码子项高 |
| 7 | Pulse-Audio-2 | Pulse | 语音多模态 | 86.4 | ASR/TTS 联合 |
| 8 | Quark-Mini | Quark Systems | 语言 | 85.2 | 低延迟 |