RDMA 归档 - 每时AI

DeepSeek第五弹炸裂收官！开源全新并行文件系统，榨干SSD全部带宽

2025年2月28日12时作者量子位

DeepSeek开源周收官，正式发布高性能文件系统3FS和数据处理框架Smallpond。3FS利用现代SSD和RDMA网络特性，实现了惊人的读取吞吐量，为AI数据处理设定了新基准。

DeepSeek开源第二天，目标就是榨干GPU的所有性能，国产AI猛兽比年前OpenAI发布会更凶猛。

2025年2月25日23时作者开源AI项目落地

昨天DeepSeek开源第一天即收获9000颗星，今日其新项目DeepEP发布两天后已获3900颗星星。支持低精度计算、优化NVLink和RDMA数据转发等特性，专为混合专家（MoE）和专家并行（EP）设计的高效通信库。

DeepSeek开源周第二天：DeepEP通信库，解锁MoE模型通信瓶颈

2025年2月25日16时作者 Founder Park

）和专家并行（EP）打造的高效通信库 — DeepEP。
就在半小时前，官方对此进行了发布，以下是由

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

2025年2月25日16时作者机器之心

DeepSeek 开源首个用于MoE模型训练和推理的EP通信库 DeepEP，优化高效通信和并行处理，支持FP8精度，并提供灵活资源调度。

DeepSeek开源第二弹，为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

2025年2月25日12时作者量子位

DeepSeek开源第二弹来了！首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核，支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境，并提供详细的使用指南。

谈谈DeepSeek-v3在算力约束下的出色工作

2024年12月30日23时作者极市干货

寒冷的周末, 加完班挤点时间读个论文吧. Deepseek-v3仅用了2048块H800 GPU就超

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31