Transformer模型归档

罕见合著！谷歌、Meta、英伟达团队联手发文，揭秘语言模型 “记忆” 能力

上午8时 2025/06/05 作者头部科技

一篇新论文揭示了语言模型的记忆能力，并提出了新的量化指标用于衡量这种能力。研究表明，Transformer模型每个参数大约可存储3.5到4比特信息，模型的“记忆”与其泛化能力有关，理解这一点有助于开发更安全、可靠的大规模AI系统。

下午4时 2025/05/20 作者 PaperWeekly

清华大学团队研究发现，RoPE 带来的周期性延拓受到频谱损坏影响限制了 LM 的长度外推能力。他们提出傅里叶位置编码（FoPE）来提升 Transformer 的长文本泛化能力。

下午11时 2025/05/15 作者机器之心

个由 LLMs 驱动的革命性进化编码智能体。
它不仅仅是一个代码生成工具，更是一个能够演化
整个代码

下午11时 2025/05/15 作者机器之心

eek 已经发布了 V3 模型的
技术报告
，但刚刚，他们又悄然发布了另一篇围绕 DeepSeek-

上午8时 2025/04/24 作者 NLP工程化

斯坦福发布新Transformer课程，邀请多位AI领域专家授课，内容涵盖基础知识、前沿技术等，现已开放免费在线观看。

上午8时 2025/04/15 作者 NLP工程化

Chonky 是一个基于神经网络的文本分块工具，使用Transformer模型精准分割长文本，支持RAG系统拓展应用范围，简单易用。

上午8时 2025/03/16 作者 AI寒武纪

Meta AI华人团队联合大牛发布论文，证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数，相比传统方法，DyT简单有效，性能不输且速度快、成本低。

下午2时 2025/03/09 作者小兵的AI视界

所未有的机遇。
BioMedGPT-R1
，由清华大学
AI
产业研究院（
AIR
）与北京水木分子

下午4时 2025/03/08 作者 AI前线

智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说，这是一个颇为重要的版本，原因包括：
它是