惊人算力成本背后，AI混战下如何选择基础设施？

或 AI混战下如何应对AI计算的惊人成本

✏️

原文标题：Navigating the High Cost of AI Compute

原文链接：https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute/

by Guido Appenzeller, Matt Bornstein, and Martin Casado

common.docs_name - LarkCCM_Docs_Menu_Image

Source: Midjourney

生成式AI热潮是以算力是为基础的。其独特性在于算力的大小直接影响着数据处理能力的强弱，更大的算力造就更好的产品。通常情况下，研发投资与产品的价值直接挂钩，且这种关系明显是亚线性的（这种增长并不是成比例的，而是逐渐减缓的）。但人工智能行业并非如此，推动行业发展的主要因素就是训练和推理的成本。​

虽然我们不知道真实成本是多少，据可靠信息得知，算力缺口巨大，需求高达10倍！所以我们可以公平地说，现在，获得算力资源——以最低的总成本——已经成为AI公司成功的决定性因素。​

事实上，许多AI公司将其募集资金的80%以上用于算力资源！

在这篇文章中，我们试图分解AI公司的成本因素。绝对数字当然会随着时间的推移而变化，但我们并没看到AI公司受算力资源的约束得以快速缓解。下面希望为大家提供一个有用的思考框架。​

为什么AI模型的计算成本如此之高？

生成式AI模型有很多种，推理和训练成本取决于模型的大小和类型。幸运的是，当今最流行的模型大多是基于 Transformer （变换器）的架构，其中包括流行的大型语言模型 (LLM)，例如 GPT-3、GPT-J 或 BERT。虽然 Transformer 的推理和学习的精确操作数是模型特定的（请参阅本文），但有一个相当准确的经验法则，即取决于模型的参数数量（即神经网络的权重）和输入和输出令牌的数量。

令牌本质上是几个字符的短序列。它们对应于单词或单词的一部分（子词或字符）。了解令牌的最好方法是尝试使用公开可用的在线令牌器（例如，OpenAI）进行令牌化。对于GPT-3，令牌的平均长度是4个字符。​

Transformer 的经验法则是，对于具有p 个参数且长度为n 个令牌的输入和输出序列的模型 ，前向传递（即推理）大约需要2np浮点运算(FLOP¹ )。训练同样的模型，每个令牌大约需要6p* FLOPs（即，额外的反向传递需要四次更多的操作² ）。您可以将其乘以训练数据中的令牌数量来估算总训练成本。​

Transformer 的内存要求也取决于模型大小。为了进行推理，我们需要p 模型参数不得超过内存的大小。为了学习（即反向传播），我们需要在前向和反向传递之间为每个参数存储额外的中间值。假设我们使用 32 位浮点数，则每个参数需要额外的 8 个字节。为了训练 1750 亿个参数的模型，我们需要在内存中保存超过 1 TB 的数据——这超过了当今现有的任何 GPU，我们需要将模型拆分到多个卡上。通过使用较短长度的浮点值，可以优化推理和训练的内存需求，其中16位浮点算力已经很常见，8位浮点算力预计在不久的将来出现。​

这里的16位和8位是指浮点数的长度，也就是用多少位来表示一个浮点数。浮点数的长度越短，占用的内存空间越小，计算速度也越快，但是精度也会降低。​

上表显示了几种流行模型的大小和计算成本。GPT-3大约有1750亿个参数，对于1024个令牌的输入和输出，计算成本大约是350万亿次浮点运算（即太浮点运算或TFLOPs）。训练一个像GPT-3这样的模型需要大约3.14*10^23次浮点运算。其他模型，如Meta的LLaMA，有更高的计算要求。训练这样一个模型是人类迄今为止进行的计算量最大的任务之一。​

总之：AI基础设施之所以昂贵，是因为底层的算法问题计算难度极大。与GPT-3生成一个单词的复杂度相比，对一百万个条目的数据库表进行排序的算法复杂性显得微不足道。这意味着你要选择最小的模型来解决你的用例。​

好消息是，根据变换器的经验法则，我们可以轻松估计一个特定大小的模型将消耗多少算力和内存。因此，选择合适的硬件成为我们下一个考量因素。​

GPU的时间和成本论证

计算复杂度如何转化为时间？处理器内核每个周期通常可以执行1-2条指令，而由于Dennard Scaling的约束，处理器时钟频率在过去15年里一直稳定在3 GHz左右。在不利用任何并行架构的情况下，执行单个GPT-3的推理操作需要大约350 TFLOPs/(3 GHz*1 FLOP)或116000秒，即32小时。这非常不切实际，我们需要专门的芯片来加速这个任务。

实际上，当今所有AI模型都在使用了大量专用芯片的GPU卡上运行。例如，NVIDIA A100 GPU有512个“张量核心”，它们可以在一个周期内执行一个4×4矩阵乘法（相当于64次乘法和加法，或128 FLOPs）。AI加速卡通常被称为GPU（图形处理单元），因为这种架构最初是为桌面游戏开发的。未来，我们预计AI将增长成为一个独立的产品系列。​

A100的标称性能为312 TFLOPs，理论上可以将GPT-3的推理时间缩短到大约1秒。然而，这是一个过于简化的计算，原因如下：​

首先，对于大多数用例，瓶颈不是GPU的计算能力，而是将数据从专用的图形内存传输到张量核心的能力。​

其次，1750亿个权重占用了700GB的空间，无法放入任何 GPU 的图形内存中。需要使用分区和权重流等技术。​

第三，有许多优化方法（例如，使用较短的浮点表示，如FP16、FP8或稀疏矩阵）用于加速计算。​

惊人算力成本背后，AI混战下如何选择基础设施？​

惊人算力成本背后，AI混战下如何选择基础设施？