提示词(Prompt)工程是优化大型语言模型(LLM)性能的一个具有挑战性但至关重要的任务。这需要复杂的推理来检查模型的错误,假设当前提示词中缺少或误导了什么,以及清晰地传达任务。尽管最近的研究表明LLM可以被元提示(meta-prompted)来自动进行提示词工程,但由于缺乏足够的引导来激发LLM在元提示中的复杂推理能力,它们的潜力可能尚未被完全挖掘。在这项工作中,我们研究了“PROMPT ENGINEERING A PROMPT ENGINEER”的问题——构建一个更有效地引导LLM自动进行提示词工程的元提示。我们介绍并分析了关键组成部分,如逐步推理模板和上下文规范,这些都有助于提高性能。此外,受到常见优化概念(如批量大小、步长和动量)的启发,我们将它们的口头化对应物引入元提示,并研究它们的效果。我们的最终方法,名为PE2,找到了一个提示词,其在MultiArith数据集上的表现比“让我们一步步思考”高出6.3%,在GSM8K数据集上高出3.1%。为了展示其多功能性,我们将PE2应用于指令归纳基准、一系列反事实任务和一个冗长的现实世界工业提示词中。在这些设置中,PE2表现出色,超过了以前的自动提示词工程基准。此外,我们展示了PE2如何进行有意义和针对性的提示词编辑,修正错误或不完整的提示词,并展现出非凡的反事实推理能力。