输入“/”快速插入内容

胡凯翔 :DeepSeek 为什么省钱

1月29日修改
本文讨论了DeepSeek模型开发实现高性价比的原因,包括硬件使用策略、训练方法、模型压缩等方面,还阐述了蒸馏技术的工作原理。关键要点包括:
1.
高效硬件使用:使用普通GPU,通过优化算法弥补性能不足,在M2 Ultras上采用高效分布式计算方案。
2.
创新训练方法:跳过传统监督微调(SFT)步骤,直接使用强化学习(RL),减少训练阶段,节省资源和时间。
3.
高效模型压缩:运用3位量化技术,降低模型存储和运行成本,保持性能同时减少资源消耗。
4.
避免无效尝试:从失败尝试中吸取教训,借助PRM和MCTS及时放弃无效路径,集中资源于有效方法。
5.
成本优势显著:成本仅为O1(可能指OpenAI)的三十分之一,在相关排行榜上仅次于O1。
6.
创新蒸馏技术:用80万个由DeepSeek-R1生成的样本训练小模型,将大模型能力转移到小模型,降低数据成本。
7.
蒸馏工作原理:核心是让小模型学习大模型的“思考过程”和“确信程度”,通过知识表示、温度调节、特定训练过程实现。
🤖
作者
飞书用户3127
基本术语解释:
1. DeepSeek-R1: 这是一个新的人工智能语言模型,类似于 GPT 或 Claude。
2. PRM (过程奖励模型):
这是一种用来评估和改进 AI 模型表现的方法
简单来说,就像给 AI 打分,告诉它哪些回答做得好,哪些需要改进
3. MCTS (蒙特卡洛树搜索):
这是一种决策算法
可以理解为 AI 在做决定时,会提前模拟很多种可能的情况,然后选择最好的那个
4. GRPO & Hopper GPU:
GRPO 是一种训练 AI 的方法
Hopper GPU 是 NVIDIA 公司的高端计算芯片
文章说他们用的是较普通的方法,可能是因为没有太多高端设备
5. SFT (监督微调)RL (强化学习):
SFT:通过人工标注的数据来教 AI
RL:让 AI 通过不断尝试自己学习
文章提到他们直接使用了 RL,跳过了常规的 SFT 步骤
6. 模型蒸馏:
这是一种技术,把大模型的"知识"转移到小模型中
就像把老师的知识教给学生一样
7. 量化(3位量化,~4 bpw):
这是一种压缩 AI 模型的技术
让模型变得更小,运行更快,但尽量不影响性能
DeepSeek为什么能这么省钱?
1. 高效的硬件使用策略
使用性能较普通的 GPU(而不是最新最贵的 Hopper GPU)
通过优化算法(如 GRPO)来弥补硬件性能的不足
在 M2 Ultras 上运行时采用了高效的分布式计算方案(mlx.distributed)
2. 创新的训练方法
直接使用强化学习(RL),跳过了传统的监督微调(SFT)步骤
这减少了一个训练阶段,节省了大量计算资源和时间
传统方法通常需要:预训练 → SFT → RL
DeepSeek:预训练 → 直接 RL
3. 高效的模型压缩
使用 3 位量化技术(~4 bpw)
这大大减少了模型的存储和运行成本
在保持性能的同时显著降低了资源消耗
4. 避免无效尝试
从失败尝试中吸取教训(如 PRM 和 MCTS)
及时放弃无效路径,集中资源在有效方法上
成本对比
文章提到其成本仅为 O1(可能指 OpenAI)的三十分之一
同时在 Livebench 和 Aider 排行榜上的表现仅次于 O1
这说明他们在保持高性能的同时,显著降低了成本
创新的蒸馏技术
使用 80 万个由 DeepSeek-R1 生成的样本来训练小模型
这种方法可以高效地将大模型的能力转移到小模型上
不需要额外的人工标注数据,降低了数据收集和处理成本
总的来说,DeepSeek 通过创新的训练方法、高效的资源使用和精明的技术选择,实现了高性价比的模型开发。他们没有一味追求使用最昂贵的硬件,而是找到了更智能的方法来达到相似的效果。