🥇
5.31-6.7｜本周顶尖 AI 论文

用户4242

6月8日修改

原帖链接：https://x.com/dair_ai/status/2063644231030214958

欢迎来到本周顶尖 AI 论文（5 月 31 日至 6 月 7 日）。

1. Self-Revising Discovery Systems

common.docs_name - LarkCCM_Docs_Menu_Image

这篇来自 MIT 的论文认为，真正的科学发现并不是生成答案，而是搜索空间本身发生变化，并且 AI 科学家必须在没有明确提示的情况下觉察这种变化。论文提出了一个范畴论框架：证据、产物、操作和验证器都被赋予类型；所谓发现，被定义为对表征体系的原则性修订，而不是在固定体系内继续扩大搜索。​

•
发现意味着改变体系： 系统被设计成能够检测表征体系何时应该变化，并自主完成修订。这把 AI 科学家从“更快的搜索器”重新定义为能够移动搜索空间边界的系统。​

•
有类型的范畴论基础： 证据、产物、操作和验证器都被形式化地赋予类型。旧结果通过函子式传输带入新体系，而真正的发现对应的是仅靠传输无法解释的剩余内容。​

•
描述长度门控让系统保持诚实： 只有当提出的修订能降低总描述长度时，它才会被接受。这把真实的结构性收益和单纯增加复杂度区分开来。在一次运行中，388 个候选方案只产生 25 个被接受的修订，接受率被有意严格控制在 6.4%。​

•
为什么重要： 两个具体实例，蛋白质力学建模，以及带有类型化技能和验证检查点的知识-计算图，展示了范畴论既可以作为形式语言，也可以作为工程规格。相比只靠搜索的 AI 科学家，这是一份更有原则的自主发现蓝图。​

论文 | 推文

2. Disentangling Agent Self-Evolution

这篇论文提出了每个 agent 构建者迟早都会遇到的问题：如果一个 agent 会重写自己的运行框架（harness），更强的模型是否会带来更好的自我演化 agent？答案是否定的。原因在于，“自我演化”实际上包含两种彼此独立、扩展方式完全不同的能力。研究把“更新运行框架”和“从运行框架中获益”分开：前者由演化模型负责修改记忆、工具、提示词和技能；后者由求解模型在任务中实际利用这些修改。​

•
更新质量在模型层级间基本持平： 对运行框架的修改质量几乎不依赖模型强度。Qwen3.5-9B 写出的更新带来的收益，和 Claude Opus 4.6 相近，所以在演化模型一侧为前沿模型付费，几乎买不到额外收益。​

•
收益并非单调增长： 利用更好运行框架的能力呈现曲线。弱模型收益很小，中等模型受益最大，最强模型反而低于中等模型，常见原因是它们不依赖脚手架也能完成任务。​

•
失败模式很具体： 较弱的求解模型要么无法激活相关运行框架组件，要么不能稳定遵循组件指令。这就是即使修改本身不错，它们带来的收益仍然很小的原因。​

•
为什么重要： 实用杠杆是把便宜模型放在演化侧，把能力预算花在求解侧。agent 自我改进里，真正起大作用的是系统设计，而不是单纯的模型规模。​

论文 | 推文

3. LEAP

Google 的新研究展示了一个自定义 agent 运行框架能把通用模型在形式数学上推到多远。LEAP 用 agent 式脚手架包住通用 LLM，把每一步都落到 Lean 编译器中，并基于验证器反馈迭代。它不是微调一个专门的定理证明器，而是利用非形式化推理、指令遵循和自我修正，然后强制每个形式化步骤在继续之前通过编译器检查。​

•
先分解，再验证： 这个脚手架采用自然的证明分解和验证器引导式精炼。模型把困难定理拆成子目标，起草非形式化蓝图，Lean 编译器检查每个形式化步骤，把模糊推理转成机器可检查证明。​

•
完整解出 Putnam： 在 2025 Putnam Competition 上，LEAP 解出了全部 12 道题，追平了专用前沿数学模型的最新突破，而且基座 LLM 没有做数学专项训练。​

•
IMO 级证明大幅跃升： 在 Lean-IMO-Bench 上，LEAP 把通用 LLM 的单次形式化解题率从低于 10% 提升到 70%，超过了专门的金牌级 IMO 系统所设下的 48%。​

•
为什么重要： 这是一个强信号：针对最难推理领域之一，差距可以由构建良好的运行框架弥合，而不一定需要定制模型。杠杆位于通用模型周围的脚手架和验证器循环。​

论文 | 推文