罕见合著!谷歌、Meta、英伟达团队联手发文,揭秘语言模型 “记忆” 能力
一篇新论文揭示了语言模型的记忆能力,并提出了新的量化指标用于衡量这种能力。研究表明,Transformer模型每个参数大约可存储3.5到4比特信息,模型的“记忆”与其泛化能力有关,理解这一点有助于开发更安全、可靠的大规模AI系统。
一篇新论文揭示了语言模型的记忆能力,并提出了新的量化指标用于衡量这种能力。研究表明,Transformer模型每个参数大约可存储3.5到4比特信息,模型的“记忆”与其泛化能力有关,理解这一点有助于开发更安全、可靠的大规模AI系统。
Meta AI 团队面临严重人才流失问题,Llama 模型核心研究成员离职率高。Meta 在开源领域与竞争对手差距明显,导致 Llama 模型在开发者社区反响平平。
Meta发布KernelLLM,一个基于Llama 3.1微调的8B模型,能够在PyTorch代码基础上生成高效的Triton GPU内核,单次推理性能超越GPT-4o和DeepSeek V3。
Meta AI团队面临人才流失,多位Llama模型核心创作者离职引发对其AI战略的关注。Meta内部研究动荡加剧了外界对该公司能否留住顶尖AI人才的质疑。
最新研究发现,超过20%的AI生成代码依赖不存在的软件包。扎克伯格和微软首席技术官都预估未来大部分AI代码将由智能体生成,但实际使用中可能引发安全问题,如供应链攻击。研究人员利用16种主流大型语言模型生成57.6万个样本发现有44万个依赖项是幻觉产物,对软件供应链构成威胁。
文章介绍了阿里云和AI的最新进展及战略,包括AWS、Meta等科技巨头对AI投入增加以及阿里的持续投入和业绩增长。文章还提到通义千问模型系列的开源发布及其在多个排行榜上的领先表现,并阐述了阿里巴巴通过开源策略推动AGI实现的战略考量。
LlamaCon。现场,该公司宣布推出一款面向消费者的独立 Meta AI 聊天机器人应用程序,这款