刚刚,高效部署DeepSeek R1的秘密被DeepSeek公开了~
DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。
DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
阿里发布Qwen Chat中的新模型’思考(QwQ)’,基于Qwen2.5-Max的推理模型,支持思考、联网和Agent工具。预览版本在数学理解、编程和代理方面表现优异,计划于近期开放源代码并发布正式版APP。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
多智能体系统领域提出MasRouter框架,通过选择合适的协作模式、角色分配和LLM调度,实现每个任务的最佳智能体团队定制。
微软发布OmniParser V2,一款开源屏幕解析工具,能够将任何LLM变成能操作计算机的Agent,并包含改进后的数据集和模型,实现更低延迟和更高准确率。
X-R1更新日志包括支持LoRA训练、发布中文训练配置及模型,成功进行大规模强化学习训练,增加标准实验脚本,支持3B模型的中文推理,并在Ascend 910B上运行成功。