DeepSeek
DeepSeek开源周Day1,硬核发布…
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!
Sonnet,“这是迄今为止我们最智能的模型,也是市场上首个混合推理模型。”Anthropic 官
DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。
刚刚!DeepSeek开源DeepEP,GPU通信加速器,专为MoE设计!
DeepSeek发布第二款开源软件库DeepEP,专为MoE模型训练与推理设计,提供高效的全对全通信计算核,支持FP8精度运算。
微软急刹车,被曝撤掉大波数据中心租赁!DeepSeek冲击,算力泡沫要破?
DeepSeek开源引发微软大规模租赁取消,微软正放缓数据中心投资。OpenAI从微软转向甲骨文合作,微软考虑是否过度建设AI算力。
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
DeepSeek开源第二弹来了!首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境,并提供详细的使用指南。
尚德机构宣布深度整合DeepSeek,开启新一轮技术转型
尚德机构宣布全面接入DeepSeek大模型,开启在成人教育领域的技术转型。依托其卓越的自主学习和逻辑推导能力,DeepSeek能够精准适应学员多样化需求,提升教学质量和效率,优化获客与运营策略。