分享
🔥DeepSeek开源周持续报道
输入“/”快速插入内容
🔥DeepSeek开源周持续报道
飞书用户9236
飞书用户8537
3月3日修改
💬概览
2月28日,DeepSeek连续五天的“开源周”正式收官,当天发布了全新的 Fire-Flyer File System(简称 3FS)以及基于 3FS 的数据处理框架 Smallpond。DeepSeek 大模型对 3FS 的官方解读是:这是一款专为现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络打造的高性能并行文件系统,目标是解决 AI 训练与推理工作负载下的存储瓶颈问题。
从 2 月 24 日起,DeepSeek 连续五天每天开放一个核心技术项目,涵盖从 AI 模型训练到文件系统优化等多个领域,为业界带来新的技术启发与创新思路。
第一天(2月24日)
:DeepSeek发布了FlashMLA,这是一个用于优化显卡性能的解码核,旨在提升AI模型的训练和推理效率。
第二天(2月25日)
:DeepSeek开源了DeepEP通信库,这是首个专为混合专家(MoE)模型设计的开源EP通信库,具有高效的全员通信、支持NVLink和RDMA等特性,有望降低计算消耗。
第三天(2月26日)
:DeepSeek推出了DeepGEMM,这是一个支持密集和MoE GEMM的FP8 GEMM库,核心代码约300行,但性能提升显著,在Hopper GPU上实现了1350 TFLOPS的速度。
第四天(2月27日)
:DeepSeek发布DualPipe:革新并行算法,效率飙升!一种全新的 双向流水线并行算法,显著优化大规模模型训练效率。
第五天(2月28日)
:DeepSeek发布DualPipe:革新并行算法,效率飙升!一种全新的 双向流水线并行算法,显著优化大规模模型训练效率。
第六天(3月1日)
:DeepSeek的彩蛋来了!开源周Day6,DeepSeek官方团队在开发者社区Github和知乎给出了DeepSeek-V3/R1推理系统的技术解读。通过优化吞吐和延迟,DeepSeek理论上一天的总收入达到了562027美元,成本利润率为545%。
···
···
🔍详情
1️⃣
DeepSeek发布FlashMLA
DeepSeek 开源的 FlashMLA 是针对 NVIDIA Hopper 架构的高效 MLA 解码内核,优化了长序列的推理速度,达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。它的核心在于多头潜在注意力(MLA)加速解码,支持动态序列,完美应对复杂输入。
•
《
一文详解DeepSeek开源的FlashMLA,他们才是真正的“源神”
》
•
《
Deepseek开源FlashMLA让H800计算性能翻两倍!
》
开源地址>>
GitHub - deepseek-ai/FlashMLA: FlashMLA: Efficient MLA Decoding Kernel for Hopper GPUs
50%
50%
FlashMLA的主要特点包括:
•
支持BF16和FP16精度
:确保计算效率和数值稳定性。
•
分页KV缓存
:采用块大小为64的分页KV缓存,提高内存利用效率,减少大规模模型的延迟。
•
卓越的性能指标
:在H800 SXM5 GPU上,FlashMLA在内存受限配置中实现了高达3000 GB/s的内存带宽,在计算受限配置中达到了580 TFLOPS的计算性能。
这些特性使FlashMLA在AI推理任务中表现出色,特别是在需要处理长序列和高吞吐量的应用中。
2️⃣
DeepSeek开源DeepEP通信库
【25日】开源—款专为“混合专家模型”(MoE)和“专家并行”(EP)设计的通信库DeepEP,彻底革新了 GPU 的计算效率,让 AI 任务的性能更上一层楼。DeepEP 通过极致的内核优化、低延迟通信以及创新的通信-计算重叠方法,打破了硬件限制,真正让 AI 训练与推理迈向全新阶段。相较于 OpenAI 的营销战术,DeepSeek 选择了最直接的方式——开源即开箱即用,用代码说话,让所有开发者都能平等地探索 AI 未来。这不仅是技术的突破,更是开源精神的极致体现。
•
《
一文详解:DeepSeek 第二天开源的 DeepEP
》
•
《
DeepEP 加速MoE的通信速度 提高模型的训练和推理效率
》
•
《
DeepSeek开源DeepEP高效专家并行通信库,助力AI模型性能飞跃
》
开源地址>>
GitHub - deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library
50%
50%
DeepEP 是一种用于高效、低延迟的通信库,通常应用于分布式系统中,尤其是在需要大量数据传输和低延迟通信的场景下。它可以提供高效的数据序列化、传输和处理能力,并且通常支持跨平台和多语言的接口,使得它可以在不同的系统之间进行通信。
高性能和低延迟
◦
特点:
DeepEP 在大规模数据传输和低延迟场景中表现卓越,适用于实时通信和金融交易等领域。
◦
应用:
已被多个公司采用,确保高效数据传输。
跨平台支持
◦
特点:
支持多操作系统和编程语言,实现高效跨平台通信。
◦
应用:
云服务公司已使用 DeepEP 进行全球数据同步,提升响应速度。