按头学习| 让 AI 真正做好复杂任务，需要一套什么样的系统？（Anthropic官方指南）

用户4242

3月25日修改

原创 万万不能的小侠 万万不能的小侠 Berryxia.AI2026年3月25日 08:51  美国​

同一个游戏，  200 做出来的能玩。 ​
Anthropic 工程师用实战告诉你，多智能体协作框架是怎么工作的。​

同一个任务，两种做法，结果让人无法忽视。

第一次：让一个 AI 单独去做，花了20分钟，花了 9美元 。游戏界面出来了，但核心玩法是坏的，角色根本不响应操作。​

第二次：用一套多智能体系统去做，花了6小时，花了 200美元 。游戏能玩了，画面有质感，内置了 AI 辅助生成精灵图和关卡的功能。​

20倍的时间、22倍的钱，换来的是什么？

这不是一篇吹嘘 AI 的文章。这是 Anthropic 工程师在实战中搞清楚的一件事： 要让 AI 真正做好长时间、复杂的任务，光靠一个聪明的模型是不够的。你需要设计一套系统。​

单个 AI 会在哪里垮掉

在搞清楚"系统怎么设计"之前，先要搞清楚"单个 AI 会在哪里出问题"。​

总结下来，有两个核心缺陷。

缺陷一：上下文退化

AI 模型处理信息的方式，可以想象成一个白板。你往上面写的东西越多，前面的内容就越难看清楚。随着任务越来越长，模型会逐渐失去对整体目标的把握，开始产生前后矛盾、逻辑断裂。​

有些模型甚至会产生"上下文焦虑"——它感觉白板快写满了，于是提前宣告"工作完成"，即使任务根本没完成。​

解决这个问题的方式，不是压缩上下文，而是 彻底清空 ，重新来过。给模型一块全新的白板继续工作。​

缺陷二：自我评估偏差

让 AI 评估自己的作品，它几乎总是打高分。

对于客观任务（比如代码能不能跑）还好，因为有标准答案。但对于主观任务——比如设计好不好看、产品体验顺不顺——这个问题就很致命。AI 倾向于为自己的输出找理由，而不是真正挑剔它。​

这两个问题，指向同一个解法：把"做"和"评"分开，让不同的 AI 负责。​

从 GAN 借来的思路

这种分离的灵感，来自机器学习里一个经典架构：GAN（生成对抗网络）。​

按头学习| 让 AI 真正做好复杂任务，需要一套什么样的系统？（Anthropic官方指南）​