例如,图2显示PromptAgent在GPT-3.5、GPT-4和PaLM 2中始终优于人类和自动提示词工程师(APE) (Zhou等人, 2022)的基线,分别比APE提高了9.1%、7.7%和6%。大量的定性结果进一步突显了优化提示词的专家级方面,表明PromptAgent有效地弥补了具有挑战性任务中的领域差距,提供了极高的探索效率和普遍性。随着我们预期更为强大的LLM的出现,这些LLM能够理解复杂的指令,我们相信专家级的提示词引导将引领提示词工程的下一个时代,在这一研究方向中,PromptAgent站在了一个开创性的步骤上。