分享
5.31-6.7|本周顶尖 AI 论文
输入“/”快速插入内容
🥇
5.31-6.7|本周顶尖 AI 论文
用户4242
用户4242
6月8日修改
原帖链接:
https://x.com/dair_ai/status/2063644231030214958
欢迎来到本周顶尖 AI 论文(5 月 31 日至 6 月 7 日)。
1. Self-Revising Discovery Systems
这篇来自 MIT 的论文认为,真正的科学发现并不是生成答案,而是搜索空间本身发生变化,并且 AI 科学家必须在没有明确提示的情况下觉察这种变化。论文提出了一个范畴论框架:证据、产物、操作和验证器都被赋予类型;所谓发现,被定义为对表征体系的原则性修订,而不是在固定体系内继续扩大搜索。
•
发现意味着改变体系:
系统被设计成能够检测表征体系何时应该变化,并自主完成修订。这把 AI 科学家从“更快的搜索器”重新定义为能够移动搜索空间边界的系统。
•
有类型的范畴论基础:
证据、产物、操作和验证器都被形式化地赋予类型。旧结果通过函子式传输带入新体系,而真正的发现对应的是仅靠传输无法解释的剩余内容。
•
描述长度门控让系统保持诚实:
只有当提出的修订能降低总描述长度时,它才会被接受。这把真实的结构性收益和单纯增加复杂度区分开来。在一次运行中,388 个候选方案只产生 25 个被接受的修订,接受率被有意严格控制在 6.4%。
•
为什么重要:
两个具体实例,蛋白质力学建模,以及带有类型化技能和验证检查点的知识-计算图,展示了范畴论既可以作为形式语言,也可以作为工程规格。相比只靠搜索的 AI 科学家,这是一份更有原则的自主发现蓝图。
论文
|
推文
2. Disentangling Agent Self-Evolution
这篇论文提出了每个 agent 构建者迟早都会遇到的问题:如果一个 agent 会重写自己的运行框架(harness),更强的模型是否会带来更好的自我演化 agent?答案是否定的。原因在于,“自我演化”实际上包含两种彼此独立、扩展方式完全不同的能力。研究把“更新运行框架”和“从运行框架中获益”分开:前者由演化模型负责修改记忆、工具、提示词和技能;后者由求解模型在任务中实际利用这些修改。
•
更新质量在模型层级间基本持平:
对运行框架的修改质量几乎不依赖模型强度。Qwen3.5-9B 写出的更新带来的收益,和 Claude Opus 4.6 相近,所以在演化模型一侧为前沿模型付费,几乎买不到额外收益。
•
收益并非单调增长:
利用更好运行框架的能力呈现曲线。弱模型收益很小,中等模型受益最大,最强模型反而低于中等模型,常见原因是它们不依赖脚手架也能完成任务。
•
失败模式很具体:
较弱的求解模型要么无法激活相关运行框架组件,要么不能稳定遵循组件指令。这就是即使修改本身不错,它们带来的收益仍然很小的原因。
•
为什么重要:
实用杠杆是把便宜模型放在演化侧,把能力预算花在求解侧。agent 自我改进里,真正起大作用的是系统设计,而不是单纯的模型规模。
论文
|
推文
3. LEAP
Google 的新研究展示了一个自定义 agent 运行框架能把通用模型在形式数学上推到多远。LEAP 用 agent 式脚手架包住通用 LLM,把每一步都落到 Lean 编译器中,并基于验证器反馈迭代。它不是微调一个专门的定理证明器,而是利用非形式化推理、指令遵循和自我修正,然后强制每个形式化步骤在继续之前通过编译器检查。
•
先分解,再验证:
这个脚手架采用自然的证明分解和验证器引导式精炼。模型把困难定理拆成子目标,起草非形式化蓝图,Lean 编译器检查每个形式化步骤,把模糊推理转成机器可检查证明。
•
完整解出 Putnam:
在 2025 Putnam Competition 上,LEAP 解出了全部 12 道题,追平了专用前沿数学模型的最新突破,而且基座 LLM 没有做数学专项训练。
•
IMO 级证明大幅跃升:
在 Lean-IMO-Bench 上,LEAP 把通用 LLM 的单次形式化解题率从低于 10% 提升到 70%,超过了专门的金牌级 IMO 系统所设下的 48%。
•
为什么重要:
这是一个强信号:针对最难推理领域之一,差距可以由构建良好的运行框架弥合,而不一定需要定制模型。杠杆位于通用模型周围的脚手架和验证器循环。
论文
|
推文