🥇5.11-5.17｜本周 AI 顶级论文

用户4242

5月17日修改

原帖链接：https://x.com/dair_ai/status/2056018543850754283

本周 AI 顶级论文（5 月 11 日 - 5 月 17 日）

common.docs_name - LarkCCM_Docs_Menu_Image

1. Lighthouse Attention

Lighthouse Attention

Nous Research 提出了一种用于长上下文预训练的 training-only attention wrapper。Lighthouse Attention 用一个分层、无梯度的选择层包装标准 SDPA，对 queries、keys 和 values 做对称压缩与解压，同时保持从左到右的因果性。这个 wrapper 会在训练末尾附近通过一个很短的恢复阶段被移除，因此部署后的模型在推理时仍然运行普通 attention，不需要任何架构改动。初步 LLM 实验显示，与 full-attention baseline 相比，它的总训练时间更短，最终 loss 更低。​

•
可亚二次扩展的 wrapper，部署时仍是普通模型： 分层 selector 降低了长上下文训练成本，但不修改底层 attention operator。恢复阶段之后，训练得到的权重在推理时与标准 SDPA 兼容。​

•
对称压缩保持因果性： Queries、keys 和 values 通过同一套层级结构压缩和解压，使 wrapper 与 left-to-right attention 保持兼容。​

•
训练更快，最终 loss 更低： 在匹配 FLOPs 的条件下，初步实验报告了更快的 wall-clock 训练速度和更低的最终 loss，其中在 512K context 下 forward latency 快了 21 倍。​

•
重要性： 这种只影响训练、部署模型保持不变的改法，绕开了高效 attention 方法通常在部署阶段面临的取舍。​

论文 | 推文

想把后续系列直接收到邮箱？可以在这里订阅：https://nlp.elvissaravia.com/

2. Is Grep All You Need?

Is Grep All You Need?

这篇论文评估了 coding agent 中 grep 风格的文本搜索与基于 embedding 的检索。在合适的 agent harness 包装下，grep 在 coding-agent 任务中能够追平甚至超过 embedding retrieval。研究把 harness 的贡献和 retrieval primitive 的贡献拆开分析，发现通常被归因于 embeddings 的性能差异，其实大部分来自 harness design。​

•
直接比较 grep 与 embeddings： 在受控条件下评估 coding-agent 任务，grep-based retrieval 达到或超过 embedding-based retrieval。​

•
Harness design 是主导变量： 固定 index、改变 harness 带来的性能波动，比反过来更大，说明过去很多 retrieval 对比可能被 harness 差异混淆了。​

•
对代码库结构的启发： 当代码库被正确索引，并且结构适合 agent 导航时，grep 表现最好；而 embedding retrieval 可以部分弥补输入结构混乱的问题。​

•
重要性： 向量数据库已经是 coding-agent stack 的常见默认选择。这个结果说明，在许多 coding 任务中，改进 harness 和使用基础文本搜索，可以替代 embedding infrastructure。​

论文 | 推文

3. A Geometric Calculator Inside a Neural Network

A Geometric Calculator Inside a Neural Network

🥇5.11-5.17｜本周 AI 顶级论文​

🥇5.11-5.17｜本周 AI 顶级论文