Transformer模型归档

推荐也讲ScalingLaw？召回、排序、端到端全覆盖：一文读懂生成式推荐系统架构进化

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月26日8时作者 AI寒武纪

谷歌DeepMind推出AlphaGenome AI模型，用于更深入、准确预测基因变异，加速疾病研究、基因治疗及基础生命科学。

2025年6月21日23时作者新智元

OpenAI前研究主管Bob McGrew指出，预训练、推理和多模态能力是实现AGI的关键，而2025年将是推理之年。他强调预训练仍然重要但收益递减，而推理则面临技术潜力逐渐被「消耗殆尽」的挑战。

2025年6月5日8时作者头部科技

一篇新论文揭示了语言模型的记忆能力，并提出了新的量化指标用于衡量这种能力。研究表明，Transformer模型每个参数大约可存储3.5到4比特信息，模型的“记忆”与其泛化能力有关，理解这一点有助于开发更安全、可靠的大规模AI系统。

2025年5月20日16时作者 PaperWeekly

清华大学团队研究发现，RoPE 带来的周期性延拓受到频谱损坏影响限制了 LM 的长度外推能力。他们提出傅里叶位置编码（FoPE）来提升 Transformer 的长文本泛化能力。

2025年5月15日23时作者机器之心

个由 LLMs 驱动的革命性进化编码智能体。
它不仅仅是一个代码生成工具，更是一个能够演化
整个代码

2025年5月15日23时作者机器之心

eek 已经发布了 V3 模型的
技术报告
，但刚刚，他们又悄然发布了另一篇围绕 DeepSeek-