Andrej Karpathy：2025 年度盘点

用户4242

2025年12月20日修改

金色传说大聪明赛博禅心2025年12月20日 10:26 广东

本文来自 Andrej Karpathy

2025 年是大语言模型突飞猛进的一年

以下是我个人认为最值得关注的几个「范式转变」，这些变化重塑了整个行业格局，也在概念上给我留下了深刻印象​

可验证奖励的强化学习（RLVR）

2025 年初，各大实验室训练 LLM 的标准流程大致是这样的：

1.
预训练（Pretraining），GPT-2/3 时代约 2020 年确立的基础​

2.
监督微调（Supervised Finetuning, SFT），始于 InstructGPT，约 2022 年​

3.
基于人类反馈的强化学习（RLHF），同样始于约 2022 年​

这套流程久经验证，是训练生产级 LLM 的稳定配方

而到了 2025 年，可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards, RLVR）正式成为这条流水线上的新主力环节​

RLVR 的核心思路是让 LLM 在一系列「答案可以自动验证」的环境中训练，比如数学题、编程挑战等。神奇的是，经过这种训练，模型会自发地「学会思考」：它们开始把复杂问题拆解成中间步骤，并摸索出各种解题策略，比如反复推敲、来回验证（详见 DeepSeek R1 论文中的案例）​

这些能力在之前的训练范式下很难实现，因为我们根本不知道对于这个模型而言「最优的推理路径」长什么样，它必须自己在优化奖励的过程中摸索出来​

与 SFT 和 RLHF 这两个相对轻量的阶段不同，RLVR 的训练对象是客观的、无法被刷分的奖励函数，模型没法通过投机取巧来骗取高分，必须真正解决问题，因此可以进行更长时间的优化。实践证明 RLVR 的性价比极高，它像饕餮一样吞噬了原本留给预训练的算力​

因此 2025 年的能力提升主要来自实验室们消化这个新阶段带来的红利，模型参数规模没怎么变，但 RL 训练跑得更久了​

Andrej Karpathy：2025 年度盘点​