🥇
5.24-5.31｜本周顶级 AI 论文

用户4242

6月1日修改

原帖链接：https://x.com/dair_ai/status/2061104052818108476

common.docs_name - LarkCCM_Docs_Menu_Image

本周顶级 AI 论文

1. SkillOpt

Microsoft Research 将一份紧凑的自然语言 Skill 文档视为冻结智能体的可训练状态，然后通过多轮运行、反思，以及受边界约束的编辑来学习这份文档；每次编辑都要经过留出验证的门禁。它的观点很直接：多数工程师手写智能体 Skill 文档，然后期待它能泛化；但文档本身其实也应该像参数一样被优化。SkillOpt 把 SKILL.md 文件重新定义为模型的外部参数，而模型权重始终不变。​

•
把 Skill 文档当作可训练参数：优化器模型会向 Skill 文件提出经过验证门禁的编辑，包括新增、删除或替换指令。文本学习率控制每一轮改写文档的激进程度，批量和动量也在文本空间中描述，而不是在梯度空间中描述。​

•
用验证门禁取代碰运气：每次编辑都必须通过留出检查才会被保留。这让 Skill 编写从凭直觉调提示词，变成了有明确目标、可度量的优化闭环。​

•
52 项全胜：SkillOpt 在 6 个基准测试和 7 个目标模型上，击败了 Trace2Skill、TextGrad、GEPA、EvoSkill、人类编写的 Skills，以及一次性生成的 Skills。相比没有 Skill 的基线，它在 GPT-5.5 直接聊天中大约提升 +23.5 分，在 Codex 闭环中提升 +24.8 分，在 Claude Code 中提升 +19.1 分。​

•
为什么重要：如果 Skill 文档就是你要优化的对象，瓶颈就会从基础模型能力，转移到你能否围绕冻结智能体训练好这份自然语言状态。这是一个便宜、与模型无关、但多数团队还没有充分利用的杠杆。​

论文 | 原帖

2. 将智能体工作流编译进权重

这篇论文展示了一个完整的智能体工作流可以被蒸馏进小模型的权重中，在保持接近前沿模型任务质量的同时，将推理成本降低约两个数量级。它不再把外部编排器放在 LLM 之上，而是把流程编译进经过微调的模型权重里，作者称之为潜层智能体。​

•
编译的是整个工作流，而不只是答案：被编译的流程包含多步 LLM 调用、工具调用、中间草稿区和决策点。学生模型内化的是编排逻辑，而不是只模仿最终输出。​

•
编排器被融入模型：经典智能体框架会在每次请求时，在模型上方运行一个规划闭环。把这个闭环编译进权重，可以移除每次调用都要付出的编排开销，而这些开销正是多数成本和延迟所在。​

•
成本降低约 100 倍，质量接近前沿水平：在评估任务上，蒸馏后的小模型保持了接近原工作流的质量，同时把推理成本降低约两个数量级。节省来自把多次模型调用折叠成一次前向传播。​

•
为什么重要：多数生产级智能体每天会反复为同一套编排闭环付费，运行成千上万次。如果这个闭环可以一次性编译进便宜模型，那么部署智能体系统的经济性会明显改变，尤其适合高频、窄域的工作流。​

论文 | 原帖

3. AutoScientists