MMBench

全方位的多模态大模型能力评测体系

标签：AI模型评测

MMBench是一个多模态基准测试，该体系开发了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。

相关导航

大规模多任务语言理解基准，UC Berkeley推出

H2O EvalGPT

H2O推出的基于Elo评级方法的LLM评估系统和工具

由复旦大学NLP实验室推出的大模型评测基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

一个综合性的大模型中文评估基准

中文通用大模型综合性测评基准