GiantPandaCV
分享一个DeepSeek V3和R1中 Shared Experts和普通Experts融合的一个小技巧
R1 应用一个fuse shared experts到普通256个expert中的工作 (https
从DeepSeek MoE专家负载均衡谈起
上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究,发现专家负载不均衡现象。通过分析论文和内部请求数据,提出了一些关于MoE模型在不同场景下的应用观点,并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。
从DeepSeek V3开源趋势重新审视大模型Infra
文章介绍了DeepSeek V3作为高效大模型基础设施的设计,并详细解释了其在计算集群、训练框架优化、低精度训练及推理部署等方面的应用。同时推荐了相关的资源和课程。