Четыре доски соответствуют Models, Agents, LLMs, Toolchains; столбцы могут расширяться независимо (вендор, домен, размер, охват и т. д.).
Сводный балл формируется из настраиваемых весов и нормализации; при нескольких бенчмарках указываются версии, веса и обработка пропусков.