文章：LLM 驱动的自主Agents | Lilian Weng

原文链接：https://lilianweng.github.io/posts/2023-06-23-agent/

作者：Lilian Weng（OpenAI研究主管）

翻译：看到了两个翻译版本，分别来自想学好算法的彻特、AI的潜意识，在此基础上略作修改、校对

以LLM（大语言模型）作为Agents的核心控制器是一个很酷的概念。一些概念验证（proof-of-concepts，PoC）的演示，例如AutoGPT、GPT-Engineer 和 BabyAGI都是令人振奋的例子。但LLM的潜力不仅限于生成写作流畅的文案、故事、论文和程序，它还可以被视为一个强大的通用问题解决器。

Agent系统概述

在 LLM 支持的自主Agent系统中，LLM 充当Agents的大脑，并辅以几个关键组成部分：​

•
规划​
◦
子目标和分解：Agents将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务。​
◦
反思和完善：Agents可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。​

•

记忆

◦

短期记忆：我认为所有的上下文学习（参见提示工程）都是利用模型的短期记忆来学习。

◦
长期记忆：这为Agents提供了长时间保留和回忆（无限）信息的能力，通常是通过利用外部向量存储和快速检索来实现。​

•

工具使用

◦
Agents学习调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。​

common.docs_name - LarkCCM_Docs_Menu_Image

图 1. LLM 驱动的自主Agents系统概述

第一部分：规划

一项复杂的任务通常涉及许多步骤。Agents需要知道这些步骤并提前进行规划。​

任务分解

思想链（CoT； Wei et al. 2022）已成为增强复杂任务模型性能的标准提示技术。该模型被指示“一步一步思考”，以利用更多的测试时间计算将困难任务分解为更小、更简单的步骤。CoT 将大任务转化为多个可处理的任务，并对模型思考过程进行了解释。

思想树（Tree of Thoughts，Yao et al. 2023）通过在每一步探索多种推理可能性来扩展 CoT。它首先将问题分解为多个思考步骤，并在每个步骤中生成多个思考，从而创建树结构。搜索过程可以是 BFS（广度优先搜索）或 DFS（深度优先搜索），每个状态由分类器（通过提示）或多数投票进行评估。

任务分解可以通过以下方式进行：

•
 (1) 通过 LLM 进行简单提示，如"Steps for XYZ.\n1."、"What are the subgoals for achieving XYZ?"​

•
(2) 通过使用特定于任务的指令，例如，"Write a story outline."用于写小说​

•
或 (3) 人工输入​

另一种截然不同的方法是LLM+P（Liu et al. 2023），它依赖于外部的经典规划器来进行长期规划。这种方法利用规划领域定义语言（Planning Domain Definition Language，PDDL）作为中间接口来描述规划问题。

•
在此过程中，LLM (1) 将问题转化为“Problem PDDL”​

•
然后 (2) 请求经典规划器基于现有的“Domain PDDL”生成 PDDL 计划​

•
最后 (3) 将 PDDL 计划转化回自然语言​

本质上，规划步骤被外包给外部工具，假设特定领域的 PDDL 和合适的规划器可用，这在某些机器人设置中很常见，但在许多其他领域并不常见。​

自我反省

自我反思是一个重要的方面，它允许自主Agents通过完善过去的行动决策和纠正以前的错误来迭代改进。在现实世界的任务中，试错（trial and error）是不可避免的，自我反思在其中起着至关重要的作用。​

ReAct（Yao et al. 2023）通过将动作空间扩展为特定于任务的离散动作和语言空间的组合，将推理和动作集成在LLM中。前者使LLM能够与环境交互（例如使用维基百科搜索API），而后者（空间语言）则促使LLM以自然语言生成推理轨迹。

ReAct 提示模板包含了 LLM 思考的明确步骤，大致格式为：

代码块

Thought: ...​
Action: ...​
Observation: ...​
... (Repeated many times)​

文章：LLM 驱动的自主Agents | Lilian Weng​

文章：LLM 驱动的自主Agents | Lilian Weng