Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考

用户4242

4月25日修改

🔗 原文链接： https://mp.weixin.qq.com/s/grWCVvfA...

原创 Z Potentials Z Potentials Z Potentials2026年4月25日 13:20 山西

common.docs_name - LarkCCM_Docs_Menu_Image

01 导语

很多人知道王子涵，是从Twitter上开始的。

当时随着DeepSeek R1、V3的相继发布，西方技术社区第一次大规模感知到这家中国公司的存在，也由此将目光投向了站在一线的研究者，这位年轻研究者的推特账号突然涌入大量关注。他至今还记得，当时西方从业者对DeepSeek的震撼，就像目睹了一种“来自东方的神秘力量”，甚至还流传着不少有趣的传言，连梁老板的照片都被传错，至今没更正过来。​

最初，他只是想做一件简单的事：把真实情况讲清楚：讲DeepSeek是如何做研究，团队的工作方式，和那些被忽略的技术细节， 希望尽可能在信息失真之前，提供一个更接近一线的视角。 巧合的是，昨天准备访谈内容时，遇上了DeepSeek V4的发布，王子涵早期在DeepSeek的亲身经历，也补充了更多关于这家神秘公司的更多一手信息。​

但比起这段略带偶然的“走红”，更能定义王子涵的，是一条更早开始、也更稳定的技术路径——他 对Agent system的持续探索。​

他进入中国人民大学开启计算机研究的时间点，恰好处在一个 “前范式”阶段： GPT-2已经验证了生成式架构的潜力，但学界与工业界的主流重心，仍然停留在以BERT为代表的非生成式范式之上——围绕分类、信息检索、表示学习与任务拆解不断深化。也正是从那个阶段起，他沿着一条清晰却不张扬的技术路径持续推进：从推荐系统与信息检索算法出发，延展至Berkeley的强化学习交流项目，以及与UIUC合作开展的MINT Agent benchmark研究；随 后进入DeepSeek，围绕 MoE 模型中的专家Specialization（专业化）展开深入探索，并在此后的博士阶段，将问题进一步下探至Agent强化学习的底层机制，持续追问其能力边界与实现路径。​

与许多从大模型能力出发进入这一领域的研究者不同，他的起点更朴素： 一个AI系统，是否可以像人一样，在没有持续外部指导的情况下，自主学习、自主改进？​

在这一问题之下，他引入马尔可夫决策过程MDP（Markov Decision Process ）来抽象Agent的决策闭环：状态（state）、动作（action）、转移（transition）与反馈（reward）共同构成一个自洽的系统。但他的兴趣并不止于传统强化学习对“策略优化”的关注，而是一个更具挑战性的主题—— 构建真正理解世界的Agent，在行动发生之前，就已经在内部完成了对未来的预演与模拟。​

这也成为他后续所有工作的起点。作为直博二年级学生， 他已在NeurIPS、ICLR 、CVPR、EMNLP等AI顶级会议上发表十余篇论文，google scholar citation 1600余次，并包揽NeurIPS LAW outstanding paper，ICCV SP4V best paper等荣誉。 无论是最早探索的 Agentic scaling law，还是之后持续推进的RAGEN 1/2，VAGEN，MindCube等框架， 核心都指向同一个问题：如何让Agent的决策，从“对输入的响应”，转变为“基于世界演化的判断”。​

图为RAGEN 1，受访者提供

在这次对话中，我们试图回到这些问题的起点： 从他最早的研究经历出发，穿过在DeepSeek的一线实践，再到他当下对Agent的系统性思考，去还原他个人的研究与探索是如何一步步展开的。 以下为 Z Potentials与王子涵的 对话实录，Enjoy！​

Z Highlights：

•
后来慢慢发现，很多看似高深的idea可能只是包装，甚至在复现实验时会发现根本跑不通。我开始具备辨别能力，能看出哪些工作外表华丽、公式复杂，实则并不成立。我产生了一种逆向思考： 既然有些看上去高深的领域未必如此，那一些看似比较工程化的领域，会不会反而也没有那么简单，做出来一篇工作也需要很多的努力？​

•
我当时特别感慨，怎么会有研究员密度这么高的公司。之前待过的地方，200个人里能有10个专职研究员就很不错了，但在DeepSeek，这200人里几乎多多少少都在做研究相关的事。就算不是专职研究员，每天也会在群里分享最新的 大模型 进展、大厂动态，连 HR 都会转发相关新闻，氛围特别不一样。​

•
还有一件事让我印象很深，当时在DeepSeek有位做 infra 的前辈，我第一次提交代码时，前辈逐行帮我修改，每一行都能找到优化空间。比如通过in-place操作避免重新克隆 张量 。我觉得so amazing。​

•
之前有人问我：到底什么才是Agent？我觉得，一个东西算不算 Agent，取决于它被放在什么样的Physical或Digital环境里。给它完全开放的计算机环境，它就是OpenClaw；给它受限计算机环境，它就是Claude Code 或 Codex；只给一个聊天界面，它就是 GPT 。 环境的开放程度，决定了Agent从0到1的智能指数。​

•
很多任务的设定都是给你一笔钱，把任务做得越漂亮越好。但更重要的是：一个真正具备资源适应能力的人或Agent，给他一万块能做出一万块的效果，给他一百万就能做出一百万的效果。我们希望打造的，就是这种 高度自适应资源约束的 Agent 。​

02 从人大IR到伯克利RL：“没有人脉，就从Office Hour突围”

ZP ： 欢迎子涵，先从你早期的科研经历聊起吧。在人大读书初期，什么样的契机开始接触AI领域的？当时有哪些特别的故事吗？​

王子涵： 我接触AI比较早，2020年读本科，2021年初就开始正式做AI相关科研。这得益于人大的培养模式：大一上不分专业，所有理科生一起上课，选课自由度很高，学校也开了人工智能、统计学这类课程。那段时间我其实更偏向统计学，当时国内也普遍认为本科应该打好数理基础，多学数学和统计。​

但我 不想只走统计一条路 ，于是主动联系了人工智能学院的老师，进入课题组做研究。那时GPT-3已经有了，但对文本生成模型的研究远不如非生成式模型（如BERT等）多。我在组里主要做推荐系统和搜索算法，用比较基础的DPR、RAG做QA任务。坦白说那段科研很枯燥，没有生成能力，很多事情都要靠人工精细设计。比如做QA要从原文里抽span，做conditional QA还要抽条件特征，把condition和answer一一对应。虽然做法很传统、很手工，但我已经初步感受到了AI的意义——我们的AI模型在现实生活中的应用逐渐转向自然语言，相比于隔壁做SVM的传统结构化数据方向已经要广得多。 ​

ZP ： 刚进入AI领域，你的选题或研究方向基本上是组里的导师安排吗？​

王子涵： 我选的导师在人大AI学院口碑好，学生去向也不错，最初更多是凭口碑和感觉选的。方向后来也有变化，最开始做的是信息检索(IR)。这个项目做完之后，萌生了出国的想法，大二申请了大三去Berkeley交换。​

之后方向就换了好几次。回头看本科阶段，最有意思的还是那段IR的科研经历。我们有一篇投CIKM的工作，核心是：能不能用生成模型做信息检索？当时我们尝试让GPT逐个生成文档对应的token，每个文档对应一串token，做推荐或搜索时就让模型生成这串token，匹配到哪个文档就返回哪个。这里面的困难点有点类似早期GPT的幻觉——让它引用文献，它会编出不存在的条目。为了解决这个问题，我们提出了约束解码的方法，给模型限定一个文档库，强制它只能在库内的token序列中解码，确保生成结果精准指向库内文章。​

Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考​

Z Tech｜对话王子涵：离开DeepSeek，我人生的逆向思考