学术
DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
DeepSeek 开源了高性能并行文件系统3FS,实现了高吞吐量和强一致性,支持AI训练和推理工作负载。它利用现代SSD和RDMA网络提供共享存储层,具有分离式架构、强一致性和无状态元数据服务等优势。
以1.7K深圳小区房价为例,浙大GIS实验室使用注意力机制挖掘地理情景特征,提升空间非平稳回归精度
明来源
浙江省 GIS 重点实验室的研究人员提出了一种基于注意力机制的深度学习模型 CatGWR,引
所有人都可以大规模预训练MAE – 16倍加速!
本文提出了一种基于原型驱动的课程学习框架,用于改进掩码图像建模(MIM)的训练过程。在同样的训练时间下,该方法比标准 MAE 训练快16倍学会 NN 任务的视觉表示。
MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能
UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据,旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。