Transformer 的内存要求也取决于模型大小。为了进行推理,我们需要p 模型参数不得超过内存的大小。为了学习(即反向传播),我们需要在前向和反向传递之间为每个参数存储额外的中间值。假设我们使用 32 位浮点数,则每个参数需要额外的 8 个字节。为了训练 1750 亿个参数的模型,我们需要在内存中保存超过 1 TB 的数据——这超过了当今现有的任何 GPU,我们需要将模型拆分到多个卡上。通过使用较短长度的浮点值,可以优化推理和训练的内存需求,其中16位浮点算力已经很常见,8位浮点算力预计在不久的将来出现。