月度归档: 2025 年 2 月
速递|英伟达黄仁勋强调DeepSeek利好英伟达,将2025年实现强劲增长
Nvidia CEO 黄仁勋在财报电话会议上重申DeepSeek不会影响销售,并强调其旗下的R1模型对Nvidia来说是重大利好消息。黄仁勋还宣布NVIDIA专为推理定制的最新Blackwell芯片需求强劲,公司收入创纪录达到393亿美元。
MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能
UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。
速递|阿里通义万相Wan2.1,向全球免费开放AI视频生成模型
阿里巴巴开源其Wan2.1系列中的四个模型,作为与OpenAI等专有模型竞争的新一步。这些模型通过阿里云的Model Scope和Hugging Face提供,并免费向全球开放使用。
CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒
CVPR 2025录用结果出炉,共有2878篇论文被接收,录用率为22.1%。审稿过程中发现不负责行为,19篇论文被拒。华人担任重要委员会职务,学术界努力提升质量和透明度。
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据,旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
DeepSeek开源周第四天发布三项优化并行策略的技术成果,包括DualPipe、EPLB和Profiling Data。DualPipe是一种双向流水线并行算法,旨在减少计算与通信阶段的气泡;EPLB是MoE模型负载均衡器,确保计算资源平衡利用;Profiling Data提供了实际应用中的效果数据可视化支持。