OpenAI 开源模型泄露:六大技术细节
OpenAI即将发布的开源大模型详情曝光。120亿参数混合专家模型在推理时仅激活约50-60亿参数,采用Float4量化技术并使用滑动窗口注意力和注意力汇聚技术处理超长上下文窗口。
OpenAI即将发布的开源大模型详情曝光。120亿参数混合专家模型在推理时仅激活约50-60亿参数,采用Float4量化技术并使用滑动窗口注意力和注意力汇聚技术处理超长上下文窗口。
DeepSeek AI团队升级了DeepSeek R1模型,新版本在深度思考、写作自然性和持久专注能力上有所提升。通过具体示例展示了其在文本生成和辅助编程设计方面的实力,并强调了中国大模型的进步和发展前景。
2025年5月24日周六,北京晴天。本文总结了大模型微调与训练、RAG及AgenticRAG等7张图,以及Agent、MCP和Functioncall的9张图。这些内容可供参考并作为验证标准,有助于深度思考和体系化学习。
文章介绍了DeepEP,一个用于高效通信的开源框架。通过类比交通系统,解释了其主要特点包括全对全通信能力、支持两种通信方式(节点内和节点间)、高吞吐量低延迟的GPU内核以及灵活资源控制等特性。
专注AIGC领域的专业社区分享了开源的DeepEP库,用于优化混合专家模型训练和推理。DeepEP支持高效的All-to-All通信机制、高吞吐量和低延迟内核,以及原生支持FP8格式。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
混合专家模型(MoE)通过动态选择子模型处理不同输入,显著降低计算成本并提升表现,核心组件包括专家网络、路由机制和稀疏激活。