他进入中国人民大学开启计算机研究的时间点,恰好处在一个 “前范式”阶段: GPT-2已经验证了生成式架构的潜力,但学界与工业界的主流重心,仍然停留在以BERT为代表的非生成式范式之上——围绕分类、信息检索、表示学习与任务拆解不断深化。也正是从那个阶段起,他沿着一条清晰却不张扬的技术路径持续推进:从推荐系统与信息检索算法出发,延展至Berkeley的强化学习交流项目,以及与UIUC合作开展的MINT Agent benchmark研究;随 后进入DeepSeek,围绕 MoE 模型中的专家Specialization(专业化)展开深入探索,并在此后的博士阶段,将问题进一步下探至Agent强化学习的底层机制,持续追问其能力边界与实现路径。