ICLR 2025 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板 2025年4月30日16时 作者 PaperWeekly 建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传