罕见合著!谷歌、Meta、英伟达团队联手发文,揭秘语言模型 “记忆” 能力

一篇新论文揭示了语言模型的记忆能力,并提出了新的量化指标用于衡量这种能力。研究表明,Transformer模型每个参数大约可存储3.5到4比特信息,模型的“记忆”与其泛化能力有关,理解这一点有助于开发更安全、可靠的大规模AI系统。