4.26-5.3｜本周 AI 论文精选

用户4242

5月6日修改

原帖链接：https://x.com/dair_ai/status/2050956647909015788

1. Agentic Harness Engineering

common.docs_name - LarkCCM_Docs_Menu_Image

大多数 coding agent 的 harness 现在仍然靠人工调参，或者靠脆弱的反复试错式自进化勉强维持。本文提出了 Agentic Harness Engineering（AHE），一个让 harness 演化过程变得可观测、可证伪的框架。AHE 将系统拆成三层：以可回滚文件形式保存的组件层、从数百万条轨迹 token 中压缩出的结构化证据层，以及写成预测并接受任务结果检验的决策层。这样一来，每一次修改都会变成一份可以验证、也可以撤销的契约。​

•
三层演化模型：组件、经验和决策都被视为一级工件。组件是带版本的文件，经验是从完整轨迹日志中压缩出的证据，决策则是附带预期结果的显式假设。这种结构把原本像黑盒一样的 harness 调优，变成了可审计的工程闭环。​

•
Terminal-Bench 2 上的 Pass@1 提升：Pass@1 在 10 轮迭代中从 69.7% 提升到 77.0%，超过人工设计的 Codex-CLI（71.9%）以及 ACE、TF-GRPO 等自进化基线。在 SWE-bench-verified 上，该框架还比初始 harness 少用了 12% 的 token。​

•
跨模型迁移能力：演化后的 harness 在不同模型家族上仍能迁移，带来 +5.1 到 +10.1 个点的提升，这说明这些优化更偏结构性，而不是对某个特定底座模型过拟合。这正是 harness engineering 真正想要的属性。​

•
为什么重要：在大多数 agent 系统中，harness 工作才是最大的隐性成本。AHE 是第一套可信的方案，让 harness 可以在不滑向噪音的前提下自我改进，因此它是本周最重要的 agent 系统论文。​

论文 | 推文

2. AgenticQwen-30B-A3B

阿里巴巴展示了一个仅有 30B 参数、但推理时只激活 3B 参数的 MoE 模型，可以在真实工具使用任务上追平 Qwen3-235B。AgenticQwen-30B-A3B 在 TAU-2 和 BFCL-V4 Multi-Turn 上取得了 50.2 的平均分，而 AgenticQwen-8B 为 47.4。两者都比原始 Qwen 基线高出一倍以上，并且弥合了与 235B 模型之间的大部分差距。其核心做法是并行运转两个强化学习飞轮，其中模拟用户会主动误导 agent。​

•
从自我失败中提炼的推理飞轮：第一个闭环会挖掘模型自己的错误，并在每一轮把这些错误转化为更难的推理问题。随着模型变强，训练分布也会自动变难，因此不再需要新增人工整理的推理数据。​

•
面向工具使用的 agent 飞轮：第二个闭环会把简单的线性工具使用轨迹扩展成多分支行为树。模拟用户会测试模型在误导性指令、目标模糊和工具调用失败时的恢复能力，而这些恰恰是普通监督微调最容易失效的地方。​

•
面向生产 agent 的真实效率：一个 30B 的 MoE 模型在推理时只激活 3B 参数，其服务成本明显低于 235B 的稠密模型或同级别 MoE 替代方案。对于工具使用型 agent 团队来说，这类效率优势足以改变部署决策。​

论文 | 推文

3. Agentic World Modeling

这篇由 40 位作者共同完成的大型综述，给出了迄今为止 agent 研究里最清晰的 world model 分类体系。论文提出了一个“按规律分层级”的框架，涵盖三种能力层级与四类规律体系，并综合梳理了 400 多篇工作与 100 多个代表性系统，覆盖基于模型的强化学习、视频生成、网页与 GUI agent、多 agent 仿真以及科学发现。随着 agent 从聊天机器人走向任务完成者，瓶颈正从语言转向环境，而这篇论文第一次为原本彼此割裂的研究群体提供了共享词汇。​

•
三个能力层级：L1 Predictor 处理单步状态转移，L2 Simulator 负责多步、受动作条件约束的 rollout，L3 Evolver 则会随着世界变化而自我修正。这个层级结构让我们更容易定位现有系统，也更容易看清真正的能力缺口在哪里。​

•
四类规律体系：物理规律、数字规律、社会规律和科学规律，会分别对 world model 提出不同约束。该框架将它们视为正交维度，因此也解释了为什么一个强大的物理模拟器，依然可能在社会或数字任务上失效。​

•
以失败模式为核心的视角：论文不是只按应用场景来归类，而是强调不同 world model 会在哪些地方失败。对于构建 agent 的人来说，这种视角比“它能做什么”更有价值，因为它更贴近系统设计决策。​

论文 | 推文

4. RecursiveMAS

4.26-5.3｜本周 AI 论文精选​

4.26-5.3｜本周 AI 论文精选