分享
不再再被榜单欺骗,大模型选型,这才是正确姿势!
输入“/”快速插入内容
不再再被榜单欺骗,大模型选型,这才是正确姿势!
用户4242
用户4242
2月24日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/c_Xjqsm0...
原创 洛小山 洛小山 洛小山
2026年2月23日 20:11 广东
Hi,我是洛小山,你学习 AI 的搭子。
明天就开工了,今天这篇文章,我想分享大模型评测的方法论。
希望能帮到你。
前两天发了 XSCT Bench 平台,很多朋友问我:你这个评测是怎么跑的?凭什么说你的分数比别的榜单更有用?
好问题!
01|「分数」和「选型」之间隔着一道鸿沟
先分享一个我自己的痛点吧。
我发现,目前大模型榜单和用户真正需要的决策信息之间,存在着一定的 Gap,而且
这是大模型评测领域结构性的问题。
先问一个小问题:用户使用这些榜单的目的是什么?
其实是做选型决策。
用户需要结合具体的产品或工作场景,选出最合适最优性价比的模型。
但一些模型厂商发布会上给的榜单:「我们 MMLU 97 分」「我们 HumanEval 30 分」…
大模型跑的分这只能证明你的模型是这个分,但这个 95 分对我的业务意味着什么?我不知道。
但现有榜单给出的,是他们在标准测试集上的综合分数。
这些综合分数,不一定那么契合你的使用场景。
模型 A 综合分 92,模型 B 综合分 88。
但你要做的是营销文案生成,到底该选哪个?
模型 A 数学能力更强,但你的场景根本不需要数学。
模型 B 便宜一半,创意写作能力其实更好,但榜单上不完全能看出来。
这就是「从分数到选型」的Gap。
榜单可以告诉你分数,但你真正想看的或许是:
•
给同样的 prompt,不同模型输出了什么?
•
差距具体体现在哪里?
•
哪个更符合我的产品调性?