GPT3的工作原理

科技界对 GPT3 的炒作热闹非凡。大规模语言模型（如 GPT3）的能力开始让我们感到惊讶。虽然对于大多数企业来说，向客户展示的这些模型还不是完全可靠，但它们正在展现出聪明的火花，必将加速自动化的进程和智能计算机系统的可能性。让我们揭开 GPT3 的神秘面纱，了解它的训练方式和工作原理。

经过训练的语言模型会生成文本。

我们可以选择向其传递一些文本作为输入，这会影响其输出。​

输出是根据模型在训练期间扫描大量文本时“学到”的内容生成的。​

训练是将模型暴露于大量文本的过程。该过程已经完成。您现在看到的所有实验都来自那个经过训练的模型。预计需要 355 个 GPU 年和 460 万美元。​

包含 3000 亿个文本标记的数据集用于生成模型的训练示例。例如，这些是从顶部的一个句子生成的三个训练示例。​

您可以了解如何在所有文本上滑动窗口并制作大量示例。

该模型通过一个例子进行了介绍。我们只向它展示特征并要求它预测下一个单词。​

模型的预测将会是错误的。我们计算其预测中的误差并更新模型，以便下次做出更好的预测。​

重复数百万次

GPT3的工作原理​