不再再被榜单欺骗，大模型选型，这才是正确姿势！

用户4242

2月24日修改

原创洛小山洛小山洛小山2026年2月23日 20:11 广东

Hi，我是洛小山，你学习 AI 的搭子。

明天就开工了，今天这篇文章，我想分享大模型评测的方法论。​

希望能帮到你。

前两天发了 XSCT Bench 平台，很多朋友问我：你这个评测是怎么跑的？凭什么说你的分数比别的榜单更有用？​

好问题！

01｜「分数」和「选型」之间隔着一道鸿沟

先分享一个我自己的痛点吧。

我发现，目前大模型榜单和用户真正需要的决策信息之间，存在着一定的 Gap，而且 这是大模型评测领域结构性的问题。​

先问一个小问题：用户使用这些榜单的目的是什么？

其实是做选型决策。 用户需要结合具体的产品或工作场景，选出最合适最优性价比的模型。​

但一些模型厂商发布会上给的榜单：「我们 MMLU 97 分」「我们 HumanEval 30 分」…​

大模型跑的分这只能证明你的模型是这个分，但这个 95 分对我的业务意味着什么？我不知道。​

但现有榜单给出的，是他们在标准测试集上的综合分数。

这些综合分数，不一定那么契合你的使用场景。

模型 A 综合分 92，模型 B 综合分 88。

但你要做的是营销文案生成，到底该选哪个？

模型 A 数学能力更强，但你的场景根本不需要数学。

模型 B 便宜一半，创意写作能力其实更好，但榜单上不完全能看出来。​

这就是「从分数到选型」的Gap。

榜单可以告诉你分数，但你真正想看的或许是：

•
给同样的 prompt，不同模型输出了什么？​

•
差距具体体现在哪里？​

•
哪个更符合我的产品调性？ ​

不再再被榜单欺骗，大模型选型，这才是正确姿势！​