小七姐：Prompt Engineering a Prompt Engineer 精读翻译

📍

作者：小七姐

可以在以下地址关注她，主页内容更丰富：小七姐的prompt学习社群

本文为论文《PROMPT ENGINEERING A PROMPT ENGINEER》的中文精校

PDF文档：https://arxiv.org/pdf/2311.05661.pdf

PROMPT ENGINEERING A PROMPT ENGINEER​
构建元提示词使大语言模型能高效地自动化实施提示工程​

摘要

提示词（Prompt）工程是优化大型语言模型（LLM）性能的一个具有挑战性但至关重要的任务。这需要复杂的推理来检查模型的错误，假设当前提示词中缺少或误导了什么，以及清晰地传达任务。尽管最近的研究表明LLM可以被元提示（meta-prompted）来自动进行提示词工程，但由于缺乏足够的引导来激发LLM在元提示中的复杂推理能力，它们的潜力可能尚未被完全挖掘。在这项工作中，我们研究了“PROMPT ENGINEERING A PROMPT ENGINEER”的问题——构建一个更有效地引导LLM自动进行提示词工程的元提示。我们介绍并分析了关键组成部分，如逐步推理模板和上下文规范，这些都有助于提高性能。此外，受到常见优化概念（如批量大小、步长和动量）的启发，我们将它们的口头化对应物引入元提示，并研究它们的效果。我们的最终方法，名为PE2，找到了一个提示词，其在MultiArith数据集上的表现比“让我们一步步思考”高出6.3%，在GSM8K数据集上高出3.1%。为了展示其多功能性，我们将PE2应用于指令归纳基准、一系列反事实任务和一个冗长的现实世界工业提示词中。在这些设置中，PE2表现出色，超过了以前的自动提示词工程基准。此外，我们展示了PE2如何进行有意义和针对性的提示词编辑，修正错误或不完整的提示词，并展现出非凡的反事实推理能力。​

1 引言

在给定正确提示词¹的情况下，大型语言模型（LLM）是许多自然语言处理任务的强大工具。然而，由于模型的敏感性（Jiang等人，2020年；Zhao等人，2021年；Lu等人，2022年），找到最佳提示词可能具有挑战性，这通常需要大量的手动试错努力。此外，一旦初始提示词被部署到生产环境中，可能会出现意外的边缘情况，需要更多轮手动努力来进一步完善提示词。这些挑战催生了自动提示词工程这一新兴研究领域。在这个领域内，一条显著的方法线是利用LLM本身的能力（Zhou等人，2023b；Pryzant等人，2023）。具体来说，这涉及用诸如“检查当前提示词和一批示例，然后提出新的提示词”之类的指令对LLM进行元提示（meta-prompting）。​

虽然这些方法取得了令人印象深刻的表现，但随之而来的问题是：什么构成了自动提示词工程的一个好的元提示？为了回答这个问题，我们联系了两个关键观察：（1）提示词工程本身是一个复杂的语言任务，需要深入推理：它涉及仔细检查模型的错误，假设当前提示词中缺少或误导了什么，以及更清楚地向LLM传达任务。（2）通过让模型“一步步思考”（Wei等人，2022年；Kojima等人，2022年），可以引出LLM中的复杂推理能力，并且通过指导它们反思它们的输出（Madaan等人，2023年；Chen等人，2023年）可以进一步改进。​

¹在近期文献中，“提示词”这个词经常被赋予多重含义。在本文中，提示词指的是任务描述（例如，“将英文翻译成法文”）或指令（例如，“让我们一步步思考”）。​

将这两个观察联系起来，在这项工作中，我们对PROMPT ENGINEERING A PROMPT ENGINEER——构建一个元提示指导LLM更有效地进行提示词工程（§3；图2）。通过反思现有方法的局限性并结合近期在复杂推理提示方面的进展，我们引入了元提示组件，如逐步推理模板和上下文规范，以明确指导LLM在提示词工程过程中进行推理。此外，由于提示词工程可以被视为一个优化问题，我们从常见的优化概念（如批量大小、步长和动量）中汲取灵感，并将它们的口头化对应物引入到元提示中。我们在两个数学推理数据集上测试了这些组件及其变体，包括MultiArith（Roy & Roth，2015）和GSM8K（Cobbe等人，2021），并确定了一个最佳性能组合，我们将其命名为PE2（§5.1）。​

common.docs_name - LarkCCM_Docs_Menu_Image

图 1：结果概览。我们的方法 PE2 一致地带来了优于提示词初始化（用橙色文字标记）的改进。它超过了提示词优化基线迭代式 APE（Zhou 等人，2023b）和 APO（Pryzant 等人，2023）。完整结果请参见指令引导基准测试中的图 5，反事实评估中的图 6-7，以及生产提示词优化中的图 11。

PE2取得了强大的实证性能（§5.2）。当使用TEXT-DAVINCI-003作为任务模型时，PE2产生的提示词在MultiArith上比“让我们一步步思考”（Kojima等人，2022）的零提示链思考提示词高出6.3%，在GSM8K上高出3.1%。此外，PE2在多种设置中超过了两个自动提示词工程基准，迭代APE（Zhou等人，2023b）和APO（Pryzant等人，2023）（图1）。值得注意的是，PE2在反事实任务上最为有效（Wu等人，2023），在这些任务中，自动提示词工程师预计会对非标准情况进行推理（例如，在8进制而非10进制中进行加法）并通过提示词向任务模型解释这种情况。在学术数据集之外，PE2在优化生产中使用的冗长、真实世界提示词方面证明了其广泛的适用性。​

在审视PE2的提示词编辑历史（§5.3）时，我们发现PE2始终提供有意义的提示词编辑。它能够修正错误或不完整的提示词，并通过添加额外细节丰富提示词，从而提高最终性能（表4）。有趣的是，当不了解在8进制中进行加法时，PE2从示例中制定了自己的算术规则：“如果两个数字都小于50，将2加到总和中。如果任一数字为50或更大，将22加到总和中。”虽然这是一个不完美的捷径解决方案，但它展示了PE2在反事实情况下进行推理的非凡能力。尽管取得了这些成就，我们也认识到PE2的局限性和失败案例。我们展示了PE2受到当前LLM固有限制的影响和约束，如忽略给定指令和幻觉错误理由（表5）。​

2 背景

在这一部分，我们提供了提示词工程问题的正式表述（§2.1），并描述了使用大型语言模型（LLMs）和元提示词进行自动提示词工程的一般框架（§2.2）。在此基础上，在 §3 中，我们介绍了本工作中调查的元提示词组件和变体。​

2.1 提示词工程

提示词工程的目标是寻找文本提示词 
，在使用特定的大型语言模型 
作为任务模型时，能在给定数据集 D 上达到最佳性能。更具体地说，我们假设所有数据集都可以格式化为文本输入输出对，即  D = {(x, y)} 。我们有一个训练集 
 用于优化提示词，
 用于验证，以及  
 用于最终评估。根据 Zhou 等人（2023b）的记号，提示词工程问题可以描述为：​

(1)

其中 
 是模型在提示词 
 的条件下生成的输出， 
是每个样本的评估函数。例如，如果评价指标是精确匹配，那么 
。​

2.2 利用大型语言模型自动化提示词工程

为了减轻人类提示词工程的繁重劳动，近期的研究探索了通过元提示词（meta-prompting）大型语言模型来改写提示词（Zhou 等人，2023b），或通过检查失败案例来优化提示词（Pryzant 等人，2023）。以下，我们描述了一个封装了这些先前工作的框架，并在后续部分中进行了应用研究。它包含三个部分：提示词初始化、新提示词提案和搜索过程。​

提示词初始化。为开始提示词工程过程，需要一组初始提示词 
 。我们考虑两种初始化方法：（1）手动初始化适用于已有人类专家编写的提示词的任务。例如，“让我们逐步思考”在数学推理任务上表现良好，可以用作提示词优化的初始化。在（2）归纳初始化中，我们遵循 Zhou 等人（2023b）的做法。我们使用来自 
 的一批样本 (x, y)和一个初始提示词
（“这里是输入输出对。指令是什么？”；参见 §B.1）来引导大型语言模型生成一组初始提示词 
 。​

新提示词提案。给定一组初始提示词后，自动提示词工程师将持续提出新的、潜在更好的提示词。在时间戳 t，提示词工程师得到一个提示词 
，并预期写出一个新的提示词 
。可选地，一批样本B = {(x, y, y′)} 可能在新提示词提案过程中被检查。这里 
 代表模型生成的输出，y 代表真实标签。我们使用
来表示用于指导模型
 提出新提示词的元提示词。因此​

(2)

构建更好的元提示词
以提高所提出的提示词 
 的质量是本研究的主要关注点。我们将在 §3 中描述我们考虑的多个组件和变体。​

搜索过程。由于大型语言模型对微小的提示词变化敏感，新提出的提示词 
 可能比原始提示词 
 表现更差。因此，自动提示词工程通常结合了一个支持回溯的搜索过程。在时间戳 t，我们从之前时间戳中获得的所有提示词候选者（即
)中选择 n 个表现最好的提示词。对于这些 n 个提示词中的每一个，我们抽样 m 个不同的批次 B，并运行方程 2 中的元提示词来生成 m 个新的提示词。这将产生 m × n 个新提示词，我们统称为 
 ，并将在下一个时间戳 
 使用。提示词提案和搜索过程在附录 A.3 的算法 1 中有更正式的描述。​

3 提示词工程师

小七姐：Prompt Engineering a Prompt Engineer 精读翻译​

小七姐：Prompt Engineering a Prompt Engineer 精读翻译