DeepSeek第五弹炸裂收官!开源全新并行文件系统,榨干SSD全部带宽
DeepSeek开源周收官,正式发布高性能文件系统3FS和数据处理框架Smallpond。3FS利用现代SSD和RDMA网络特性,实现了惊人的读取吞吐量,为AI数据处理设定了新基准。
DeepSeek开源周收官,正式发布高性能文件系统3FS和数据处理框架Smallpond。3FS利用现代SSD和RDMA网络特性,实现了惊人的读取吞吐量,为AI数据处理设定了新基准。
昨天DeepSeek开源第一天即收获9000颗星,今日其新项目DeepEP发布两天后已获3900颗星星。支持低精度计算、优化NVLink和RDMA数据转发等特性,专为混合专家(MoE)和专家并行(EP)设计的高效通信库。
文章介绍了DeepEP,一个用于高效通信的开源框架。通过类比交通系统,解释了其主要特点包括全对全通信能力、支持两种通信方式(节点内和节点间)、高吞吐量低延迟的GPU内核以及灵活资源控制等特性。
DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。
DeepSeek 开源首个用于MoE模型训练和推理的EP通信库 DeepEP,优化高效通信和并行处理,支持FP8精度,并提供灵活资源调度。
DeepSeek开源第二弹来了!首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境,并提供详细的使用指南。