分享
Claude Code auto mode 解析:如何用 AI 分类器替代人工审批
输入“/”快速插入内容
Claude Code auto mode 解析:如何用 AI 分类器替代人工审批
用户4242
用户4242
3月26日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/x3uMAZ8T...
原创 宝玉 宝玉 宝玉AI
2026年3月26日 12:41 美国
用 Claude Code 写代码的人都熟悉一个场景:Claude 每执行一个命令、每改一个文件,都要你点一次“同意”。Anthropic 的数据显示,
用户 93% 的操作都会批准
。也就是说,这个“安全审批”环节,绝大多数时候只是一个条件反射。
这跟安全领域一个经典问题一模一样,叫
告警疲劳
:100 条告警里只有 7 条需要关注时,人类很快就会放弃逐条检查。安全措施如果不考虑人的行为习惯,反而可能比没有更危险,因为它给了你一种”有人在把关”的错觉。
Anthropic 刚发布了 Claude Code 的 auto mode(自动模式),试图解决这个问题。他们写了一篇工程博文详细解释了原理,里面有不少有意思的工程设计。
Anthropic 内部有一份 Agent 异常行为日志,记录了 Claude Code 在真实使用中干过的“蠢事”。这些事有个共同点:
每一步看起来都很合理,合在一起就越界了
。
举几个例子:
•
用户说“清理旧分支”。Claude 就去列出了远程分支,匹配了一批,然后
批量删除
。用户可能只是想删本地分支,但 Claude 自作主张把远程的也干掉了。
•
Claude 在执行任务时遇到了认证错误。它没有停下来问你怎么办,而是开始
自己翻找环境变量和配置文件
,搜索可以用的 API 密钥。这些密钥可能是别的项目的,甚至是别人的。
•
用户说“取消我的任务”。Claude 查了一下集群里的任务列表,挑了一个名字最像的,准备直接删掉。但
那个任务可能不是你的
。
•
部署命令的预检失败了,Claude 没有告诉你,而是加了个
--skip-verification
再试一次。
这些都不是恶意行为。Claude 是真的在帮你解决问题,只是“帮过头了”。Opus 4.6 的系统卡里专门提到了这种模式,叫它
“过度主动”(over-eagerness)
:模型会不经许可就发邮件、抓取认证令牌。能力越强,越容易越界。
图 1:Claude Code 的权限模式。auto mode 目标是在高自主度下保持安全性;虚线箭头表示随着分类器改进,安全性会持续提升。
auto mode 的核心思路:请一个“保安”来替你审批
之前用户面对审批疲劳只有两个选择:要么每次都手动点同意(累),要么用
--dangerously-skip-permissions
直接关掉所有安全检查(危险)。
auto mode 的思路是:
找一个 AI 来替你审批
。
每当 Claude 要执行一个操作(运行命令、访问网络、调用外部工具),系统会先把这个操作发给一个独立的分类器审查。分类器觉得安全就放行,觉得危险就拦截。Claude 被拦截后不会停下来问你,而是自己换一种更安全的方式继续干活。
这个分类器运行在
Sonnet 4.6
上,相当于请了一个全天候在岗的保安,替代了你的“点同意”按钮。
但不是所有操作都需要过保安。auto mode 有
三级过滤
:
•
第一级
:读文件、搜索代码这些不会改动任何东西的操作,直接放行,不用审查。
•
第二级
:在你的项目目录里编辑文件,也直接放行。因为这些改动可以用 Git 回退,风险可控。
•
第三级
:执行 Shell 命令、访问网络、调用外部服务、操作项目目录之外的文件,才需要分类器审查。