（10）深入LLM投机采样(上)

🔗 原文链接： https://zhuanlan.zhihu.com/p/701465...

⏰ 发表时间：2024-06-04 09:21:17 (UTC+8)

公式部分因格式转化困难，建议访问上述知乎链接查看

更新记录

更新时间	更新内容
2024.06.04	完成正式版第一版

开篇

大家好，我是小A。前面花了两章篇幅介绍LLM部署中量化相关的知识，这一章开始我们接着介绍另一个重要的部署加速技巧，投机采样(Speculative Sampling)。同样将分上下两篇来详细介绍，其中​

•
上篇。介绍基础的采样策略，包括了确定性采样、随机性采样和截断采样。然后详细介绍朴素版本的投机采样和数学原理，并且列举了2种优化方向的代表性方法。​

•
下篇。我们将了解自投机采样的原理，包括讨论比较多的美杜莎采样。最后会介绍Jacobi解码算法和改进思路。​

今天我们将介绍上篇，坐稳我们发车了~​
PS: 长文预警，本篇约1w字，欢迎点赞&关注后电脑上阅读体验更佳哦~ (^_^)​

常用采样策略

我们知道LLM模型的输出是在词表上的概率分布，采样策略直接决定了我们得到怎么样的输出效果。有时候我们希望得到完全确定的结果，有时候希望得到更加丰富有趣的结果。下面我们介绍两大类采样方式，确定性采样和概率性采样。此外会重点介绍一下概率性采样中有深刻洞察的截断采样。​

确定性采样

确定性采样顾名思义就是输出结果是确定性的，本质上是搜索过程。常见的如贪心搜索(Greedy Search)和集束搜索(Beam Search)。借用这里的图，如下所示

•
Greedy Search。每次选取概率最高的token输出，非常容易陷入复读机循环。​

•
Beam Search。维护beam的大小为   k k ，对当前beam中的所有path做下个token的展开，选取累积概率最高的前   k k 个path，作为新的beam，以此类推。计算量增大，但是输出有一定确定性同时更加丰富。容易发现   k=1 k=1 的时候退化成Greedy Search。​

common.docs_name - LarkCCM_Docs_Menu_Image

概率性采样

概率性采样会基于概率分布做采样，常见的有以下3种

•
Multinomial采样。直接基于概率分布做纯随机采样，容易采到极低概率的词。​

•
Top-k采样。在概率排名前   k k​

的候选集中做随机采样，注意采样前做重新归一化。Top-k的参数   k k 是固定的，不容易调参​

•
Top-p采样。也叫Nucleus采样，先对输出概率做从大到小的排序，然后在累积概率达到   p p 的这些候选集中做随机采样，同样需要做重新归一化。动态版的Top-k，实战中高频使用。​

截断采样

前面说到Top-p这种带动态截断的采样在实战中效果比较好，但也会有badcase。例如设置   p=0.95 p=0.95 ，结果第一个词概率是0.96，第二个词概率是0.03，剩下的总和是0.01。那么按照p采样的策略，第二个词会被扔掉。但实际上第二个词在剩余词里面概率相对比较大的，应该纳入考量才对。​
截断采样(Truncation Sampling as Language Model Desmoothing)尝试从更加本质的角度理解LLM学习的概率分布特点，针对上述的例子做优化改进。这里有个重要的insight，就是认为LLM的输出其实是 真实分布和平滑分布的叠加​

•
真实的分布应该是有截断的，有些词就是不会出现，概率严格为0​

•
LLM是神经网络，输出是连续且平滑的，因此会把原来有带截断的真实分布拖出长尾​

这里关于为什么LLM输出会平滑分布，我们首先可以观察训练LLLM的CrossEntropy损失函数​

CE(P,Q)=−∑xP(x)log⁡Q(x) \text{CE}(P,Q)=-\sum_x P(x)\log Q(x)

其中   P(x) P(x) 是真值分布，   Q(x) Q(x) 是LLM预测分布。假如   P(x) P(x) 的真实分布是双峰的，如下所示​

•
那么当   Q(x) Q(x) 只能cover其中一个的时候，   CE \text{CE} 损失会在   P(x)≠0 P(x) \neq0 但是   Q(x)≈0 Q(x)\approx 0 的地方引入巨大误差，如下左图所示​

（10）深入LLM投机采样(上) ​

（10）深入LLM投机采样(上)