机器之心
Karpathy更新AI科普视频,网友:原本周末打算结个婚,改看视频了
Andrej Karpathy发布了一个长达2个多小时的学习视频,介绍了如何使用大型语言模型(LLM),涵盖从基础交互到高级数据分析等多方面内容。
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满
AIxiv专栏探讨了DataMan数据管理器在优化大语言模型预训练中的应用。该研究提出了一个全面的质量评分体系,用于15个常见应用领域的预训练数据质量评估和领域识别,显著提升了模型性能。
谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
DeepSeek 开源了高性能并行文件系统3FS,实现了高吞吐量和强一致性,支持AI训练和推理工作负载。它利用现代SSD和RDMA网络提供共享存储层,具有分离式架构、强一致性和无状态元数据服务等优势。
MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能
UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。