MoE模型归档 - 第3页共3页

Kimi首次开源了其一个16B参数的MoE模型：Moonlight-16B

上午8时 2025/02/25 作者 NLP工程化

Kimi开源Moonlight-16B模型，参数量16B，激活3B，性能优于LLAMA、Qwen和Deepseek-v2-Lite，在英文和中文能力上表现优异。

下午4时 2025/02/23 作者量子位

OpenAI团队的优化算法Muon在更大模型和数据集上的应用效果被月之暗面团队验证，改进后的Muon对1.5B参数量Llama架构模型的算力需求仅为AdamW的52%，同时基于DeepSeek架构训练出一个16B的MoE模型并开源。

下午12时 2025/02/10 作者 PaperWeekly

网络
前两年福至心灵之下，开了一个“Transformer 升级之路”系列，陆续分享了主流 Tran

下午4时 2025/01/24 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

上午8时 2025/01/23 作者 NLP工程化

Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略，提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理，实现高效稳定的推理系统。

下午11时 2025/01/15 作者极市干货

本文提出了关于如何演进MoE模型的猜想，主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group（MoEG）。文章从代数和范畴论的角度分析了MoE模型的结构，并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。

下午11时 2024/12/30 作者极市干货

寒冷的周末, 加完班挤点时间读个论文吧. Deepseek-v3仅用了2048块H800 GPU就超

下午10时 2024/11/20 作者每时AI

国产大模型阶跃星辰Step-2在指令跟随类别中以86.57的高评分排名第一。团队创新研发了从头开始训练的万亿参数MoE架构，提升了综合能力近50%，覆盖语言、多模态等全面能力。