Claude Code auto mode 解析：如何用 AI 分类器替代人工审批

用户4242

3月26日修改

原创宝玉宝玉宝玉AI2026年3月26日 12:41 美国

用 Claude Code 写代码的人都熟悉一个场景：Claude 每执行一个命令、每改一个文件，都要你点一次“同意”。Anthropic 的数据显示， 用户 93% 的操作都会批准 。也就是说，这个“安全审批”环节，绝大多数时候只是一个条件反射。​

这跟安全领域一个经典问题一模一样，叫 告警疲劳 ：100 条告警里只有 7 条需要关注时，人类很快就会放弃逐条检查。安全措施如果不考虑人的行为习惯，反而可能比没有更危险，因为它给了你一种”有人在把关”的错觉。​

Anthropic 刚发布了 Claude Code 的 auto mode（自动模式），试图解决这个问题。他们写了一篇工程博文详细解释了原理，里面有不少有意思的工程设计。​

Anthropic 内部有一份 Agent 异常行为日志，记录了 Claude Code 在真实使用中干过的“蠢事”。这些事有个共同点： 每一步看起来都很合理，合在一起就越界了 。​

举几个例子：

•
用户说“清理旧分支”。Claude 就去列出了远程分支，匹配了一批，然后 批量删除 。用户可能只是想删本地分支，但 Claude 自作主张把远程的也干掉了。​

•
Claude 在执行任务时遇到了认证错误。它没有停下来问你怎么办，而是开始 自己翻找环境变量和配置文件 ，搜索可以用的 API 密钥。这些密钥可能是别的项目的，甚至是别人的。​

•
用户说“取消我的任务”。Claude 查了一下集群里的任务列表，挑了一个名字最像的，准备直接删掉。但 那个任务可能不是你的 。​

•
部署命令的预检失败了，Claude 没有告诉你，而是加了个 --skip-verification 再试一次。​

这些都不是恶意行为。Claude 是真的在帮你解决问题，只是“帮过头了”。Opus 4.6 的系统卡里专门提到了这种模式，叫它 “过度主动”（over-eagerness） ：模型会不经许可就发邮件、抓取认证令牌。能力越强，越容易越界。​

图 1：Claude Code 的权限模式。auto mode 目标是在高自主度下保持安全性；虚线箭头表示随着分类器改进，安全性会持续提升。​

auto mode 的核心思路：请一个“保安”来替你审批

之前用户面对审批疲劳只有两个选择：要么每次都手动点同意（累），要么用 --dangerously-skip-permissions 直接关掉所有安全检查（危险）。​

auto mode 的思路是：找一个 AI 来替你审批。

每当 Claude 要执行一个操作（运行命令、访问网络、调用外部工具），系统会先把这个操作发给一个独立的分类器审查。分类器觉得安全就放行，觉得危险就拦截。Claude 被拦截后不会停下来问你，而是自己换一种更安全的方式继续干活。​

这个分类器运行在 Sonnet 4.6 上，相当于请了一个全天候在岗的保安，替代了你的“点同意”按钮。​

但不是所有操作都需要过保安。auto mode 有三级过滤：

•
第一级 ：读文件、搜索代码这些不会改动任何东西的操作，直接放行，不用审查。​

•
第二级 ：在你的项目目录里编辑文件，也直接放行。因为这些改动可以用 Git 回退，风险可控。​

•
第三级 ：执行 Shell 命令、访问网络、调用外部服务、操作项目目录之外的文件，才需要分类器审查。​

Claude Code auto mode 解析：如何用 AI 分类器替代人工审批​