分享
文章:Andrej Karpathy 亲授:大语言模型入门
输入“/”快速插入内容
文章:Andrej Karpathy 亲授:大语言模型入门
作者:天空之城城主
来源:
https://mp.weixin.qq.com/s/fmb4nvIEA9AC-5JpNPWN7Q
宝玉的另一翻译版本:
https://twitter.com/dotey/status/1728959646138880026
前言
OpenAI 大家熟知的技术大神有两位,一位是首席科学家 Ilya,很多人这几天可能因为 OpenAI 董事会风波而反复听过这个名字;另外一位则是温文儒雅的 Andrej Karpathy。
如果说 Ilya 的标签是 ChatGPT 之父,神级大牛;那么 Andrej Karpathy 的额外标签则是当之无愧这世界上最优秀的 AI 导师之一。本号在之前分享过他在微软 Build 大会的惊艳 talk,首次讲述 OpenAI 大模型训练的原理,讲得深入浅出,让人醍醐灌顶:
而今天,Andrej 在网上应众人呼声给出一个大语言模型入门的讲座分享 “给大忙人的 LLM 入门”
。毫无疑问,这就是我们能看到的最新最好的大模型入门讲座了
,特别适合希望真正了解当下最新的大模型技术基础的朋友们。
-以下是讲座的天空之城精校整理版--
全文分为三大部分,1.6w 字:
•
第一部分:大型语言模型(LLMs)
•
第二部分:LLM 的未来
•
第三部分:LLM 安全性
大家好
近期,我进行了一场关于大型语言模型的 30 分钟讲座,这场讲座具有入门性质。遗憾的是,该讲座未能录制下来。然而,在讲座结束后,许多人前来与我交流,他们表达了对讲座的喜爱。因此,我决定重新录制这场讲座,并将其上传至 YouTube 平台。现在,让我们开始吧。
第一部分:大型语言模型(LLMs)
引言:大型语言模型(LLM)讨论
本次介绍的主题是“大型语言模型入门”。首先,我们来探讨什么是大型语言模型。简而言之,一个大型语言模型由两个文件组成。以 Meta.ai 发布的 Llama2 70B 模型为例,这是 Llama 系列语言模型的第二代产品,拥有 700 亿个参数。Llama2 系列包含多个不同规模的模型,分别是 70 亿、130 亿、340 亿和 700 亿参数的版本。
Llama2 70B 模型受到广泛欢迎,因为它可能是目前最强大的开源权重模型。Meta.ai 发布了模型的权重、架构和相关论文,使得任何人都可以轻松地使用这个模型。这与其他许多语言模型不同,例如 ChatGPT 等,其模型架构并未公开发布,它们属于 OpenAI 所有,用户只能通过网络界面使用,而无法直接访问模型本身。
在 Llama2 70B 模型的情况下,它实际上就是文件系统上的两个文件:一个包含参数的文件,以及一段运行这些参数的代码。