回到正题,首先回答一个关键问题:为什么这个方案更贵,而我们却选择了它?答案就是:它更符合教育目的,截止本文发布,大部分同学没有足够的资源来亲手体验复现流程,但是我们希望大家能更清楚的看到,复现 R1 Zero 的过程中都发生了什么,真正对复现原理有个大致把握,就算做“云玩家”也要学到知识,看完骆师傅做一遍就好像自己也做了一遍。
按下回车后,可以泡杯咖啡,打开 htop 看 CPU 疯狂运作,再重新品读一遍 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》 (https://arxiv.org/abs/2501.12948)