ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传
建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传
北大联合人工智能研究院等推出全新物理评测基准PHYBench,包含500道高质量物理题目,旨在评估大模型在物理感知与推理方面的表现,并通过创新的EED评分机制揭示前沿模型与人类专家之间的差距。
清华大学计算机系郑凯文与德州大学奥斯汀分校何冠德合作的论文提出扩散桥隐式模型(DBIM),通过引入方差控制参数ρ,显著提升了扩散桥模型(DDBM)在图像翻译和修复任务上的生成质量。
纽约大学与Adobe联合研究团队提出Satori系统,通过结合BDI模型、大语言模型结构认知及多模态指示生成技术,实现AR辅助系统的理解和行为判断能力升级。
钱成博士提出了ToolRL方法,通过强化学习解决了大语言模型在使用工具时的泛化问题。该研究已在多个学术会议上发表,并由ACL Area Chair钱成领导。