斯坦福大学推出的大模型评测体系
HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
上海人工智能实验室推出的大模型开放评测体系
一个综合性的大模型中文评估基准
中文通用大模型综合性测评基准
HuggingFace推出的开源大模型排行榜单
大规模多任务语言理解基准,UC Berkeley推出
全方位的多模态大模型能力评测体系