分享
按头学习| 让 AI 真正做好复杂任务,需要一套什么样的系统?(Anthropic官方指南)
输入“/”快速插入内容
按头学习| 让 AI 真正做好复杂任务,需要一套什么样的系统?(Anthropic官方指南)
用户4242
用户4242
3月25日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/icHCVRTW...
原创 万万不能的小侠 万万不能的小侠 Berryxia.AI
2026年3月25日 08:51 美国
同一个游戏, 200 做出来的能玩。
Anthropic 工程师用实战告诉你,多智能体协作框架是怎么工作的。
同一个任务,两种做法,结果让人无法忽视。
第一次:让一个 AI 单独去做,花了20分钟,花了
9美元
。游戏界面出来了,但核心玩法是坏的,角色根本不响应操作。
第二次:用一套多智能体系统去做,花了6小时,花了
200美元
。游戏能玩了,画面有质感,内置了 AI 辅助生成精灵图和关卡的功能。
20倍的时间、22倍的钱,换来的是什么?
这不是一篇吹嘘 AI 的文章。这是 Anthropic 工程师在实战中搞清楚的一件事:
要让 AI 真正做好长时间、复杂的任务,光靠一个聪明的模型是不够的。你需要设计一套系统。
单个 AI 会在哪里垮掉
在搞清楚"系统怎么设计"之前,先要搞清楚"单个 AI 会在哪里出问题"。
总结下来,有两个核心缺陷。
缺陷一:上下文退化
AI 模型处理信息的方式,可以想象成一个白板。你往上面写的东西越多,前面的内容就越难看清楚。随着任务越来越长,模型会逐渐失去对整体目标的把握,开始产生前后矛盾、逻辑断裂。
有些模型甚至会产生"上下文焦虑"——它感觉白板快写满了,于是提前宣告"工作完成",即使任务根本没完成。
解决这个问题的方式,不是压缩上下文,而是
彻底清空
,重新来过。给模型一块全新的白板继续工作。
缺陷二:自我评估偏差
让 AI 评估自己的作品,它几乎总是打高分。
对于客观任务(比如代码能不能跑)还好,因为有标准答案。但对于主观任务——比如设计好不好看、产品体验顺不顺——这个问题就很致命。AI 倾向于为自己的输出找理由,而不是真正挑剔它。
这两个问题,指向同一个解法:把"做"和"评"分开,让不同的 AI 负责。
从 GAN 借来的思路
这种分离的灵感,来自机器学习里一个经典架构:GAN(生成对抗网络)。