文章：Andrej Karpathy 亲授：大语言模型入门

作者：天空之城城主

来源：https://mp.weixin.qq.com/s/fmb4nvIEA9AC-5JpNPWN7Q

宝玉的另一翻译版本：https://twitter.com/dotey/status/1728959646138880026

前言

OpenAI 大家熟知的技术大神有两位，一位是首席科学家 Ilya，很多人这几天可能因为 OpenAI 董事会风波而反复听过这个名字；另外一位则是温文儒雅的 Andrej Karpathy。​

如果说 Ilya 的标签是 ChatGPT 之父，神级大牛；那么 Andrej Karpathy 的额外标签则是当之无愧这世界上最优秀的 AI 导师之一。本号在之前分享过他在微软 Build 大会的惊艳 talk，首次讲述 OpenAI 大模型训练的原理，讲得深入浅出，让人醍醐灌顶：​

而今天，Andrej 在网上应众人呼声给出一个大语言模型入门的讲座分享 “给大忙人的 LLM 入门”。毫无疑问，这就是我们能看到的最新最好的大模型入门讲座了，特别适合希望真正了解当下最新的大模型技术基础的朋友们。​

common.docs_name - LarkCCM_Docs_Menu_Image

-以下是讲座的天空之城精校整理版--

全文分为三大部分，1.6w 字：

•
第一部分：大型语言模型（LLMs）​

•
第二部分：LLM 的未来​

•
第三部分：LLM 安全性​

大家好

近期，我进行了一场关于大型语言模型的 30 分钟讲座，这场讲座具有入门性质。遗憾的是，该讲座未能录制下来。然而，在讲座结束后，许多人前来与我交流，他们表达了对讲座的喜爱。因此，我决定重新录制这场讲座，并将其上传至 YouTube 平台。现在，让我们开始吧。​

第一部分：大型语言模型（LLMs）

引言：大型语言模型（LLM）讨论

本次介绍的主题是“大型语言模型入门”。首先，我们来探讨什么是大型语言模型。简而言之，一个大型语言模型由两个文件组成。以 Meta.ai 发布的 Llama2 70B 模型为例，这是 Llama 系列语言模型的第二代产品，拥有 700 亿个参数。Llama2 系列包含多个不同规模的模型，分别是 70 亿、130 亿、340 亿和 700 亿参数的版本。​

Llama2 70B 模型受到广泛欢迎，因为它可能是目前最强大的开源权重模型。Meta.ai 发布了模型的权重、架构和相关论文，使得任何人都可以轻松地使用这个模型。这与其他许多语言模型不同，例如 ChatGPT 等，其模型架构并未公开发布，它们属于 OpenAI 所有，用户只能通过网络界面使用，而无法直接访问模型本身。在 Llama2 70B 模型的情况下，它实际上就是文件系统上的两个文件：一个包含参数的文件，以及一段运行这些参数的代码。​

文章：Andrej Karpathy 亲授：大语言模型入门​

文章：Andrej Karpathy 亲授：大语言模型入门