分享
4.26-5.3|本周 AI 论文精选
输入“/”快速插入内容
4.26-5.3|本周 AI 论文精选
用户4242
用户4242
5月6日修改
原帖链接:
https://x.com/dair_ai/status/2050956647909015788
1. Agentic Harness Engineering
大多数 coding agent 的 harness 现在仍然靠人工调参,或者靠脆弱的反复试错式自进化勉强维持。本文提出了 Agentic Harness Engineering(AHE),一个让 harness 演化过程变得可观测、可证伪的框架。AHE 将系统拆成三层:以可回滚文件形式保存的组件层、从数百万条轨迹 token 中压缩出的结构化证据层,以及写成预测并接受任务结果检验的决策层。这样一来,每一次修改都会变成一份可以验证、也可以撤销的契约。
•
三层演化模型:组件、经验和决策都被视为一级工件。组件是带版本的文件,经验是从完整轨迹日志中压缩出的证据,决策则是附带预期结果的显式假设。这种结构把原本像黑盒一样的 harness 调优,变成了可审计的工程闭环。
•
Terminal-Bench 2 上的 Pass@1 提升:Pass@1 在 10 轮迭代中从 69.7% 提升到 77.0%,超过人工设计的 Codex-CLI(71.9%)以及 ACE、TF-GRPO 等自进化基线。在 SWE-bench-verified 上,该框架还比初始 harness 少用了 12% 的 token。
•
跨模型迁移能力:演化后的 harness 在不同模型家族上仍能迁移,带来 +5.1 到 +10.1 个点的提升,这说明这些优化更偏结构性,而不是对某个特定底座模型过拟合。这正是 harness engineering 真正想要的属性。
•
为什么重要:在大多数 agent 系统中,harness 工作才是最大的隐性成本。AHE 是第一套可信的方案,让 harness 可以在不滑向噪音的前提下自我改进,因此它是本周最重要的 agent 系统论文。
论文
|
推文
2. AgenticQwen-30B-A3B
阿里巴巴展示了一个仅有 30B 参数、但推理时只激活 3B 参数的 MoE 模型,可以在真实工具使用任务上追平 Qwen3-235B。AgenticQwen-30B-A3B 在 TAU-2 和 BFCL-V4 Multi-Turn 上取得了 50.2 的平均分,而 AgenticQwen-8B 为 47.4。两者都比原始 Qwen 基线高出一倍以上,并且弥合了与 235B 模型之间的大部分差距。其核心做法是并行运转两个强化学习飞轮,其中模拟用户会主动误导 agent。
•
从自我失败中提炼的推理飞轮:第一个闭环会挖掘模型自己的错误,并在每一轮把这些错误转化为更难的推理问题。随着模型变强,训练分布也会自动变难,因此不再需要新增人工整理的推理数据。
•
面向工具使用的 agent 飞轮:第二个闭环会把简单的线性工具使用轨迹扩展成多分支行为树。模拟用户会测试模型在误导性指令、目标模糊和工具调用失败时的恢复能力,而这些恰恰是普通监督微调最容易失效的地方。
•
面向生产 agent 的真实效率:一个 30B 的 MoE 模型在推理时只激活 3B 参数,其服务成本明显低于 235B 的稠密模型或同级别 MoE 替代方案。对于工具使用型 agent 团队来说,这类效率优势足以改变部署决策。
论文
|
推文
3. Agentic World Modeling
这篇由 40 位作者共同完成的大型综述,给出了迄今为止 agent 研究里最清晰的 world model 分类体系。论文提出了一个“按规律分层级”的框架,涵盖三种能力层级与四类规律体系,并综合梳理了 400 多篇工作与 100 多个代表性系统,覆盖基于模型的强化学习、视频生成、网页与 GUI agent、多 agent 仿真以及科学发现。随着 agent 从聊天机器人走向任务完成者,瓶颈正从语言转向环境,而这篇论文第一次为原本彼此割裂的研究群体提供了共享词汇。
•
三个能力层级:L1 Predictor 处理单步状态转移,L2 Simulator 负责多步、受动作条件约束的 rollout,L3 Evolver 则会随着世界变化而自我修正。这个层级结构让我们更容易定位现有系统,也更容易看清真正的能力缺口在哪里。
•
四类规律体系:物理规律、数字规律、社会规律和科学规律,会分别对 world model 提出不同约束。该框架将它们视为正交维度,因此也解释了为什么一个强大的物理模拟器,依然可能在社会或数字任务上失效。
•
以失败模式为核心的视角:论文不是只按应用场景来归类,而是强调不同 world model 会在哪些地方失败。对于构建 agent 的人来说,这种视角比“它能做什么”更有价值,因为它更贴近系统设计决策。
论文
|
推文
4. RecursiveMAS