报告：GPT-4 通用人工智能的火花

原文地址：https://arxiv.org/abs/2303.12712

翻译：真格基金，f.chen

common.docs_name - LarkCCM_Docs_Menu_Image

某些未知的事物正在做着我们不了解的事。

-- Sir Arthur Eddington

0. 摘要

Abstract

​
人工智能（AI）研究人员一直在开发和完善大型语言模型（LLMs），这些模型在各种领域和任务中表现出卓越的能力，挑战了我们对学习和认知的理解。OpenAI 最新开发的 GPT-4 [Ope23] 模型是使用前所未有的算力和数据量进行训练的。在本文中，我们报告了我们对 GPT-4 早期版本的测试，当时 OpenAI 仍在对其进行开发。我们认为（这个早期版本的）GPT-4 属于新一批 LLMs（如 ChatGPT 和 Google 的 PaLM），这些模型比以前的 AI 模型展现出更普适的智能。我们讨论这些模型不断提升的能力和影响。我们证明了除了其对语言的掌握外，GPT-4 可以完成涉及数学、编程、视觉、医学、法律、心理学等新颖而困难的任务，同时无需任何特殊提示。此外，在所有这些任务中，GPT-4 的表现与人类水平的表现非常接近，并且通常远远超过了先前的模型，如 ChatGPT。考虑到 GPT-4 的广度和深度的能力，我们认为它可以被合理地视为人工通用智能（AGI）系统的早期（但仍不完整）版本。在我们对 GPT-4 的探索中，我们也需要特别强调我们发现的其局限性，并讨论了迈向更深入和全面的 AGI 版本所面临的挑战，包括可能需要追求超越下一个单词预测的新范式。最后，我们对最近技术飞跃的社会影响和未来的研究方向进行了反思。​

1. 介绍

Introduction

​
智能是一个多方面而难以捉摸的概念，长期以来一直挑战着心理学家、哲学家和计算机科学家。1994 年，一组 52 名心理学家签署了一份有关智能科学的广泛定义的社论，试图捕捉其本质。共识小组将智能定义为一种非常普遍的心理能力，其中包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等能力。这个定义意味着智能不仅限于特定领域或任务，而是涵盖了广泛的认知技能和能力 —— 建立一个能够展示 1994 年共识定义所捕捉到的通用智能的人工系统是人工智能研究的一个长期而宏伟的目标。在早期的著作中，现代人工智能（AI）研究的创始人提出了理解智能的一系列宏伟目标。几十年来，AI研究人员一直在追求智能的原则，包括推理的普适机制（例如 [NSS59]，[LBFL93]）以及构建包含大量常识知识的知识库 [Len95]。然而，最近的许多 AI 研究进展可以描述为「狭义地关注明确定义的任务和挑战」，例如下围棋，这些任务分别于 1996 年和 2016 年被 AI 系统掌握。在 1990 年代末至 2000 年代，越来越多的人呼吁开发更普适的 AI 系统（例如 [SBD+96]），并且该领域的学者试图确定可能构成更普遍智能系统的原则（例如 [Leg08，GHT15]）。名词「通用人工智能」（AGI）在 2000 年代初流行起来（见 [Goe14]），以强调从「狭义 AI」到更广泛的智能概念的追求，回应了早期 AI 研究的长期抱负和梦想。我们使用 AGI 来指代符合上述 1994 年定义所捕捉到的智能广泛能力的系统，其中包括了一个附加的要求，即这些能力在或超过人类水平。然而，我们注意到并没有一个被广泛接受的 AGI 定义，我们在结论部分讨论其他定义。​

近几年人工智能研究中最显著的突破是大型语言模型（LLMs）在自然语言处理方面的进步。这些基于 Transformer 架构 [VSP+17] 的神经网络模型在海量网络文本数据上进行训练，其核心自我监督目标是预测部分句子中的下一个单词。在本文中，我们报告了一个由 OpenAI 开发的新 LLM 的证据，它是 GPT-4 [Ope23] 的早期非多模态版本，并表现出根据 1994 年定义的智能的许多特征。尽管它纯粹是一个语言模型，但这个 GPT-4 的早期版本在各种领域和任务中表现出卓越的能力，包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情感等。我们使用纯自然语言查询（提示）与 OpenAI 开发的 GPT-4 在其早期开发阶段进行了交互。在下列第一幅图中，我们展示了 GPT-4 的一些初步输出示例，要求它以诗歌形式写出质数无穷性的证明，用 TiKZ（一种用于在 LaTeX 中创建图形的语言）画一只独角兽，用 Python 创建一个复杂的动画，以及解决一个高中水平的数学问题。它轻松地完成了所有这些任务，并生成的输出几乎与（甚至比）人类能够产生的相同。我们还将 GPT-4 的表现与先前的 LLMs 进行了比较，尤其是 ChatGPT，它是（改进的）GPT-3 [BMR+20] 的精细调整版本。在第二幅图中，我们展示了向 ChatGPT 请求输出质数无穷性诗歌和 TiKZ 独角兽绘画的结果。虽然系统在两个任务上都表现出非平凡的表现，但与 GPT-4 的输出相比，相去甚远。这些初步观察将在整篇论文中重复出现，涉及到各种任务。GPT-4 展现出的泛化能力、跨领域的普适性和整合能力，以及在大量不同类型任务中达到或超越人类水平的表现，使我们相信 GPT-4 是朝着 AGI 的重要一步。​

报告：GPT-4 通用人工智能的火花​

报告：GPT-4 通用人工智能的火花