HELM

HELM

斯坦福大学推出的大模型评测体系

标签：AI模型评测

HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。

相关导航

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

一个综合性的大模型中文评估基准

中文通用大模型综合性测评基准

Open LLM Leaderboard

HuggingFace推出的开源大模型排行榜单

大规模多任务语言理解基准，UC Berkeley推出

全方位的多模态大模型能力评测体系