分享
Andrej Karpathy:2025 年度盘点
输入“/”快速插入内容
Andrej Karpathy:2025 年度盘点
用户4242
用户4242
2025年12月20日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/QREVWuqm...
金色传说大聪明 赛博禅心
2025年12月20日 10:26 广东
本文来自 Andrej Karpathy
https://karpathy.bearblog.dev/year-in-review-2025/
2025 年是大语言模型突飞猛进的一年
以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象
可验证奖励的强化学习(RLVR)
2025 年初,各大实验室训练 LLM 的标准流程大致是这样的:
1.
预训练(Pretraining),GPT-2/3 时代约 2020 年确立的基础
2.
监督微调(Supervised Finetuning, SFT),始于 InstructGPT,约 2022 年
3.
基于人类反馈的强化学习(RLHF),同样始于约 2022 年
这套流程久经验证,是训练生产级 LLM 的稳定配方
而到了 2025 年,可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)正式成为这条流水线上的新主力环节
RLVR 的核心思路是让 LLM 在一系列「答案可以自动验证」的环境中训练,比如数学题、编程挑战等。神奇的是,经过这种训练,模型会自发地「学会思考」:它们开始把复杂问题拆解成中间步骤,并摸索出各种解题策略,比如反复推敲、来回验证(详见 DeepSeek R1 论文中的案例)
这些能力在之前的训练范式下很难实现,因为我们根本不知道对于这个模型而言「最优的推理路径」长什么样,它必须自己在优化奖励的过程中摸索出来
与 SFT 和 RLHF 这两个相对轻量的阶段不同,RLVR 的训练对象是客观的、无法被刷分的奖励函数,模型没法通过投机取巧来骗取高分,必须真正解决问题,因此可以进行更长时间的优化。实践证明 RLVR 的性价比极高,它像饕餮一样吞噬了原本留给预训练的算力
因此 2025 年的能力提升主要来自实验室们消化这个新阶段带来的红利,模型参数规模没怎么变,但 RL 训练跑得更久了