报告：GPT-4 官方技术报告

原文链接：https://cdn.openai.com/papers/gpt-4.pdf

翻译：DeepL、译文编辑：JusTao

摘要

我们报告了GPT-4的开发情况，这是一个大规模的多模态模型，可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中，GPT-4的能力不如人类，但在各种专业和学术基准上表现出人类水平的性能，包括在模拟的律师考试中，以大约前10%的应试者的分数通过。GPT-4是一个基于Transformer的模型，预先训练它来预测文档中的下一个标记。训练后的调整过程使事实性和遵循预期行为的衡量标准的表现得到改善。这个项目的一个核心部分是开发基础设施和优化方法，这些方法在大相径庭的不同规模上表现得可预测。这使我们能够根据以不超过GPT-4的1/1000的计算量训练的模型准确地预测GPT-4的某些方面的性能。​

1 简介

本技术报告介绍了GPT-4，一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域，因为它们有潜力被用于各种应用中，如对话系统、文本摘要和机器翻译。因此，近年来它们一直是人们关注的对象，并取得了很大的进展[1-34]。​

开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力，特别是在更复杂和细致的情场景中。为了测试其在此类场景中的能力，GPT-4在各种最初为人类设计的考试中进行了评估。在这些评估中，它表现得相当好，而且经常超过绝大多数人类应试者的分数。 例如，在模拟的律师考试中，GPT-4取得的分数位列所有参与测试者的前10%。 这与GPT-3.5形成鲜明对比，后者的分数排名倒数10%。​

在一套传统的NLP基准测试中，GPT-4超过了以前的大型语言模型和大多数最先进的系统（这些系统通常有特定的基准训练或手工工程）。 在MMLU基准测试[35, 36]，一套涵盖57个科目的英语选择题中，GPT-4不仅在英语中超过了现有模型相当大的优势，而且在其他语言中也表现出强大的性能。在MMLU的翻译变体上，GPT-4在26种语言中的24种语言中超过了英语语言的最先进水平。我们在后面的章节中详细讨论了这些模型能力的结果，以及模型安全性的改进和结果。​

本报告还讨论了该项目的一个关键挑战，即开发在各种规模下表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能进行预测（基于以类似方式训练的小规模运行），这些预测用最终的运行进行了测试，以增加对我们训练的信心。​

尽管GPT-4有其能力，但它与早期的GPT模型[1, 37, 38]有类似的局限性：它不完全可靠（例如，可能遭受 "幻觉"），上下文窗口有限，并且不从经验学习。谨慎使用GPT-4的输出结果，特别是在对可靠性要求很高的情况下。​

GPT-4的能力和局限性带来了重大而新颖的安全挑战，鉴于其潜在的社会影响，我们认为对这些挑战的认真研究是一个重要的研究领域。本报告包括一个广泛的系统卡（在附录之后），描述了我们预见的围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等的一些风险。它还描述了我们为减轻部署GPT-4的潜在危害而采取的干预措施，包括与领域专家的对抗性测试，以及一个辅助模型的安全管道。​

2 本技术报告的范围和局限性

本报告重点介绍GPT-4的能力、局限性和安全性能。GPT-4是一个Transformer风格的模型[39]，预训练来预测文档中的下一个词元，使用公开的数据（如互联网数据）和第三方供应商授权的数据。然后该模型被使用来自人类反馈的强化学习（RLHF）[40]对进行微调。鉴于像GPT-4这样的大规模模型的竞争状况和安全影响，本报告不包含关于架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法以及其他的细节、 数据集构建、训练方法或类似内容。​

我们致力于对我们的技术进行独立审计，并在系统卡中分享了一些这方面的初步措施和想法。我们计划将更多的技术细节提供给更多的第三方，他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值向我们提供建议。​

除了随附的系统卡，OpenAI很快将发布关于人工智能系统的社会和经济影响的更多想法，包括有效监管的必要性。​

3 可预测的规模化

GPT-4项目的一大重点是建立一个可预测地扩展的深度学习栈。主要原因是，对于像GPT-4这样的大型训练运行，进行大量的特定模型调整是不可行的。为了解决这个问题，我们开发了基础设施和优化方法，这些方法在多个规模上有非常可预测的行为。这些改进使我们能够可靠地预测GPT-4的某些方面的性能，从使用1,000倍-10,000倍计算量训练的较小模型。​

3.1 损失预测

正确训练的大型语言模型的最终损失被认为是由用于训练模型的计算量的幂次定律来近似的[41, 42, 2, 14, 15] 。​

为了验证我们的优化基础设施的规模化能力，我们通过拟合带有不可减少的损失项的缩放定律（如Henighan等人[15]）来预测GPT-4在我们内部代码库（不属于训练集）中的最终损失：L(C)=aCb+cL(C)=aC^b+cL(C)=aCb+c，来自使用相同方法训练的模型，但使用的计算量最多比GPT-4少10,000倍。这一预测是在运行开始后不久做出的，没有使用任何部分结果。拟合的缩放定律高度准确地预测了GPT-4的最终损失（图1）。 ​

common.docs_name - LarkCCM_Docs_Menu_Image

图1. GPT-4和小型模型的性能。该指标是在源自我们内部代码库的数据集上的最终损失。这是一个方便的、大型的代码词元数据集，不包含在训练集中。我们选择看损失，因为在不同的训练计算量中，它的噪音往往比其他衡量标准小。虚线显示的是对较小模型（不包括GPT-4）的幂次定律拟合；这个拟合准确地预测了GPT-4的最终损失。X轴是归一化的训练计算量，因此GPT-4为1。​

3.2 HumanEval能力规模化

在训练前对模型的能力有一个认识，可以改善围绕调整、安全和部署的决策。除了预测最终损失外，我们还开发了预测更多可解释性能力指标的方法。其中一个指标是HumanEval数据集的通过率[43]，它衡量了合成不同复杂度的Python函数的能力。我们成功地预测了HumanEval数据集的一个子集的通过率，其方法是从计算量最多减少1,000倍的模型中推断出来的（图2）。​

图2. GPT-4和小型模型的性能。该指标是HumanEval数据集子集上的平均对数通过率。虚线显示了对小型模型（不包括GPT-4）的幂次定律拟合；该拟合准确地预测了GPT-4的性能。X轴是训练计算量的标准化，因此GPT-4为1。​

报告：GPT-4 官方技术报告​

报告：GPT-4 官方技术报告