Kimi首次开源了其一个16B参数的MoE模型:Moonlight-16B
Kimi开源Moonlight-16B模型,参数量16B,激活3B,性能优于LLAMA、Qwen和Deepseek-v2-Lite,在英文和中文能力上表现优异。
Kimi开源Moonlight-16B模型,参数量16B,激活3B,性能优于LLAMA、Qwen和Deepseek-v2-Lite,在英文和中文能力上表现优异。
OpenAI团队的优化算法Muon在更大模型和数据集上的应用效果被月之暗面团队验证,改进后的Muon对1.5B参数量Llama架构模型的算力需求仅为AdamW的52%,同时基于DeepSeek架构训练出一个16B的MoE模型并开源。
今天分享了一款快、稳且免费的R1满血版推理模型平台——问小白。界面简洁,提问后2秒出第一个token,速度快于同类产品。适用于各种需要即时反馈的场景。
Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略,提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理,实现高效稳定的推理系统。
本文提出了关于如何演进MoE模型的猜想,主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group(MoEG)。文章从代数和范畴论的角度分析了MoE模型的结构,并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。
国产大模型阶跃星辰Step-2在指令跟随类别中以86.57的高评分排名第一。团队创新研发了从头开始训练的万亿参数MoE架构,提升了综合能力近50%,覆盖语言、多模态等全面能力。