ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题 下午11时 2025/04/28 作者 机器之心 建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传
「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验 下午11时 2025/01/09 作者 新智元 新智元报道 编辑:LRST 【新智元导读】 最新综述论文探讨了知识蒸馏在持续学习中的应用,重点研究如