一文详解:DeepSeek 第二天开源的 DeepEP
DeepSeek本周发布的新版本DeepEP为混合专家模型提供高效的通信解决方案,支持Hopper GPU架构。通过优化的核心、低延迟操作和创新的通信-计算重叠方法提升了模型在训练和推理阶段的性能。
DeepSeek本周发布的新版本DeepEP为混合专家模型提供高效的通信解决方案,支持Hopper GPU架构。通过优化的核心、低延迟操作和创新的通信-计算重叠方法提升了模型在训练和推理阶段的性能。
微软取消多个数据中心租赁协议涉及数百兆瓦。TD Cowen认为这表明微软可能面临供应过剩问题。鉴于其资本支出增长曲线最大,其他公司可能会效仿。此举引发对AI投资热潮的担忧。
Gavin Baker表示未来数据成为竞争核心,预训练和推理计算资源分配将变为5/95。他预计AI模型需2-3家巨型数据中心完成预训练任务,而推理阶段则由6-10家分布式低成本边缘节点主导。
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。
DeepSeek发布第二款开源软件库DeepEP,专为MoE模型训练与推理设计,提供高效的全对全通信计算核,支持FP8精度运算。