MoE模型归档 - 第2页共4页

阿里Qwen3深夜开源！8款模型、集成MCP，性能超DeepSeek-R1，2小时狂揽16.9k星

2025年4月29日8时作者智东西

阿里云开源Qwen3系列模型，包含8种规格支持119种语言。旗舰模型在编程、数学等方面表现优于多家知名模型。Qwen3系列引入混合思考模式，支持MCP协议和119种语言，已上线多个平台。

2025年3月12日14时作者 GiantPandaCV

上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究，发现专家负载不均衡现象。通过分析论文和内部请求数据，提出了一些关于MoE模型在不同场景下的应用观点，并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。

2025年3月10日23时作者量子位

可节省40%
！
刚刚，豆包大模型团队在GitHub上开源了叫做
COMET
的MoE优化技术。
C

2025年3月5日23时作者 APPSO

量接入了 DeepSeek-R1 满血版。
作为用户，看到百度的一系列动作，心情肯定是欣喜的，使用

2025年3月1日16时作者路过银河AI

FlashMLA发布首日即引发广泛关注，通过智能调度大幅提升GPU利用率；DeepEP优化MoE模型通信效率；DeepGEMM实现高效FP8矩阵乘法，性能接近专家调优库；DualPipe+EPLB双剑合璧提升并行计算效率至30%以上；3FS文件系统进一步加速AI数据访问速度。

2025年2月28日14时作者 GiantPandaCV

非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提

2025年2月27日23时作者 AIGC开放社区

专注AIGC领域的专业社区分享了开源优化并行策略DualPipe和EPLB。DualPipe用于V3/R1训练中减少流水线气泡，显著提高效率；EPLB通过动态调整专家负载保持平衡，避免通信开销增加。