前面说到Top-p这种带动态截断的采样在实战中效果比较好,但也会有badcase。例如设置 p=0.95 p=0.95 ,结果第一个词概率是0.96,第二个词概率是0.03,剩下的总和是0.01。那么按照p采样的策略,第二个词会被扔掉。但实际上第二个词在剩余词里面概率相对比较大的,应该纳入考量才对。
截断采样(Truncation Sampling as Language Model Desmoothing)尝试从更加本质的角度理解LLM学习的概率分布特点,针对上述的例子做优化改进。这里有个重要的insight,就是认为LLM的输出其实是 真实分布和平滑分布的叠加