我们被骗了多久？LLM推理'确定性'的真相大白

用户4242

2025年9月11日修改

原创栗子KK 数镜智心2025年09月11日 12:31 美国

刚看到一个震撼研究，真的让我重新审视了整个AI行业。

今天，前ChatGPT背后的科学家团队——Thinking Machines Lab发布了他们研究博客的首篇文章，标题就很炸裂：《在LLM推理中战胜非确定性》。说实话，看完后我沉默了很久，因为这解释了太多我们在AI应用开发中遇到的"玄学"现象。​

你有没有遇到过这种情况？同样的prompt，同样的模型参数，temperature明明设置成0了，AI的回答却还是时好时坏，让你怀疑人生。以前我们总是甩锅给prompt工程不够好，或者怀疑是模型版本更新了。​

但现在真相大白了： 即使temperature=0，即使用贪婪采样，LLM的输出依然可能不稳定。​

这不是bug，而是底层架构的必然结果。我们被"确定性"这个美好愿望欺骗了多久？​

真相比想象中复杂得多

Thinking Machines Lab的研究人员深挖到了问题的根源： GPU并行计算中的非确定性 。​

让我用人话解释一下他们的发现：

想象你有一道数学题需要计算，比如把1000个数字加起来。为了提高效率，你让10个人同时计算，每人负责100个数字，最后把结果合并。理论上，不管这10个人以什么顺序报告结果，最终答案都应该一样。​

但现实中，由于浮点运算的精度限制，不同的计算顺序可能产生微小的误差。在GPU的并行世界里，这种"计算顺序的随机性"被无限放大了。​

我们被骗了多久？LLM推理'确定性'的真相大白​