ICML 2025 注意力机制中的极大值:破解大语言模型上下文理解的关键
近日,ICML 2025 新研究揭示大型语言模型中注意力机制的查询 (Q) 和键 (K) 表示存在极大值现象,而值 (V) 表示则没有这种模式。极大值对上下文理解至关重要,研究提出保护 Q 和 K 中的大值能有效维持模型的上下文理解能力。
近日,ICML 2025 新研究揭示大型语言模型中注意力机制的查询 (Q) 和键 (K) 表示存在极大值现象,而值 (V) 表示则没有这种模式。极大值对上下文理解至关重要,研究提出保护 Q 和 K 中的大值能有效维持模型的上下文理解能力。
英伟达团队发布Eagle 2.5视觉语言模型,在长上下文多模态学习方面取得显著进展,其在Video-MME基准测试中实现了72.4%的高准确率。该模型通过信息优先采样、渐进式混合后训练和多样性驱动的数据配方等创新技术提升性能,并已在开源社区上线。
一位本科生Andrew Krapivin通过研究哈希表,挑战并突破了计算机科学界长达40年的经典猜想。他的研究成果不仅在最坏情况下的查询速度达到(log x)²,还发现非贪婪哈希表的平均查询时间可以实现常数级别,对人工智能和大数据领域具有深远影响。
00后本科生安德鲁·克拉皮文意外发现了一种新型哈希表,最坏情况下的查询和插入时间与(log x)²成正比,远快于1985年姚期智的猜想。