分享
GPT3的工作原理
输入“/”快速插入内容
GPT3的工作原理
原文地址:
https://jalammar.github.io/how-gpt3-works-visualizations-animations/
科技界对 GPT3 的炒作
热闹非凡
。大规模语言模型(如 GPT3)的能力开始让我们感到惊讶。虽然对于大多数企业来说,向客户展示的这些模型还不是完全可靠,但它们正在展现出聪明的火花,必将加速自动化的进程和智能计算机系统的可能性。让我们揭开 GPT3 的神秘面纱,了解它的训练方式和工作原理。
经过训练的语言模型会生成文本。
我们可以选择向其传递一些文本作为输入,这会影响其输出。
输出是根据模型在训练期间扫描大量文本时“学到”的内容生成的。
训练是将模型暴露于大量文本的过程。该过程已经完成。您现在看到的所有实验都来自那个经过训练的模型。预计需要 355 个 GPU 年和 460 万美元。
包含 3000 亿个文本标记的数据集用于生成模型的训练示例。例如,这些是从顶部的一个句子生成的三个训练示例。
您可以了解如何在所有文本上滑动窗口并制作大量示例。
该模型通过一个例子进行了介绍。我们只向它展示特征并要求它预测下一个单词。
模型的预测将会是错误的。我们计算其预测中的误差并更新模型,以便下次做出更好的预测。
重复数百万次