ICLR 2025 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板 下午4时 2025/04/30 作者 PaperWeekly 建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传