测试各种LLM

2023年5月9日创建

8882

9922

针对大模型的评估是最近一个很火的领域

请问大家一般用什么问题，测试不同LLM模型的质量好坏

大部分同学会用：1.检索和归纳 2推理性 3有日期相关历史事件等问题​

以下是几个专业做模型测评的网站

这里有个网站做的非常全面： https://lmsys.org/blog/2023-05-03-arena/

下图截图是系统自带翻译不太友好，可以点进去仔细阅读

3.
讯飞给了一个测评体系​

AlpacaEval

来自斯坦福的团队，发布了一款LLM自动评测系统——AlpacaEval，以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜 AlpacaEval，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。​

该研究团队选择了目前在开源社区很火的开源模型，还有GPT-4、PaLM 2等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。​

测试各种LLM​