DeepSeek 开源 DeepEP 高效通信库,专家并行不再是难题!
DeepSeek OpenSourceWeek 发布了首个面向MoE模型的开源EP通信库 DeepEP。它提供了高性能All-to-All通信内核、集群内和集群间全面支持,以及训练和推理预填充及推理解码低延迟内核等特性。性能测试显示其在不同场景下都能提供出色的通信性能。
承认低估阿里,大摩:AGI目标下,阿里云收入三年将翻倍,估值能给1400亿美元!
大摩上调阿里巴巴评级至‘超配’,目标价从100美元上调至200美元。预计阿里云收入三年内翻倍,EBITDA利润率将提高到约35%。基于乐观预期,阿里的分拆估值为每股200美元,其中云业务估值为每股60美元,使得阿里云市值达到1400亿美元。
一文详解:DeepSeek 第二天开源的 DeepEP
DeepSeek本周发布的新版本DeepEP为混合专家模型提供高效的通信解决方案,支持Hopper GPU架构。通过优化的核心、低延迟操作和创新的通信-计算重叠方法提升了模型在训练和推理阶段的性能。
“微软撤掉两个数据中心”引热议,华尔街:难道美股对DeepSeek的第一反应没错?
微软取消多个数据中心租赁协议涉及数百兆瓦。TD Cowen认为这表明微软可能面临供应过剩问题。鉴于其资本支出增长曲线最大,其他公司可能会效仿。此举引发对AI投资热潮的担忧。
Claude 3.7、QwQ-Max-Preview等推理大模型发布跟踪:兼看大模型逻辑推理技术总结及几点思考
近日推理大模型相关前沿回顾包括Claude 3.7的发布,Qwen的QwQ模型开源,FlashMLA的开源及PaliGemma 2 Mix模型的开源。文章还总结了大模型逻辑推理技术,并提出了一些值得思考的问题。
马斯克“点赞”的AI趋势解读:OpenAI已被追上,微软撤退了,“推理时代”巨型数据中心只需2-3个
Gavin Baker表示未来数据成为竞争核心,预训练和推理计算资源分配将变为5/95。他预计AI模型需2-3家巨型数据中心完成预训练任务,而推理阶段则由6-10家分布式低成本边缘节点主导。