分享
技术报告解读
输入“/”快速插入内容
技术报告解读
飞书用户8537
1月28日修改
看了下DeepSeek论文,做了点笔记和思考
DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图)
AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级
先从DeepSeek R1论文本身说起
Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只不过在benchmark/推理水平上达到了相同的水平
所以从推理token价格来说,deepseek和o1比降低了27倍也是合理的。
DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好的模型上进行 RL强化学习,reward机制是基于规则的奖励(rule-based reward system),而不是普遍使用的过程奖励process neural reward model或者靠纯结果outcome
规则奖励分两个部分:
• 准确性奖励(Accuracy Reward): 对于有确定答案的问题,评估模型生成的答案是否正确。
• 格式奖励(Format Reward): 确保模型在回答中遵循指定格式,比如说
<think> 推理过程 </think>
<answer> 最终答案 </answer>
可能是因为对推理过程有规则奖励,也“涌现”出了生成推理过程的“顿悟时刻(Aha Moment),模型自己生成的CoT过程越来越长,还学会了反思(reflection),和自我纠错和exploration探索举动,这都是提高推理能力的普遍过程
DeepSeek-R1主要贡献是证明 LLM 可以在无监督数据的情况下,通过强化学习RL提高推理能力
通过这个“规则奖励”以及GRPO,不需要大量人工编写/标注复杂的 CoT 数据来提高推理能力,直接把模型推理能力提高到o1水平,同时成本还很低
为什么这个RL提升推理能力的方法以前没人试过呢?
其实两年前就试过了(伯克利),但当时只有LLAMA第一代模型能力不足,GSM8K跑分都非常低,推理和数学能力太低。那个时候LLAMA2-HF效果好得多,因为在预训练语料里已经有一些CoT的文本,所以后来的RL可以直接利用并强化这些“人类式思考”的片段,而早期模型往往生成的推理过程非常混乱。
另外早期基准(GSM8K等)太简单,模型可能能“轻松”地蒙中答案、或者通过一些相对简单的做法就拿到高分。
当任务足够难,模型只有先探索/反思/纠错,才能更稳定地拿到正确解答,RL才会往这个方向去“逼”模型学会更复杂的思维过程