分享
测试各种LLM
输入“/”快速插入内容
测试各种LLM
2023年5月9日创建
8882
9922
针对大模型的评估是最近一个很火的领域
请问大家一般用什么问题,测试不同LLM模型的质量好坏
大部分同学会用:1.检索和归纳 2推理性 3有日期相关历史事件等问题
以下是几个专业做模型测评的网站
1.
这里有个网站做的非常全面:
https://lmsys.org/blog/2023-05-03-arena/
下图截图是系统自带翻译不太友好,可以点进去仔细阅读
2.
中文语言理解测评基准(CLUE)
https://www.cluebenchmarks.com/index.html
介绍:
https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw
3.
讯飞给了一个测评体系
AlpacaEval
来自斯坦福的团队,发布了一款LLM自动评测系统——
AlpacaEval
,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。
项目链接:
https://github.com/tatsu-lab/alpaca_eval
排行榜链接:
https://tatsu-lab.github.io/alpaca_eval/
该研究团队选择了目前在开源社区很火的开源模型,还有
GPT-4
、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。