Nous Research 提出了一种用于长上下文预训练的 training-only attention wrapper。Lighthouse Attention 用一个分层、无梯度的选择层包装标准 SDPA,对 queries、keys 和 values 做对称压缩与解压,同时保持从左到右的因果性。这个 wrapper 会在训练末尾附近通过一个很短的恢复阶段被移除,因此部署后的模型在推理时仍然运行普通 attention,不需要任何架构改动。初步 LLM 实验显示,与 full-attention baseline 相比,它的总训练时间更短,最终 loss 更低。