注意力机制
继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖
ICLR 2025 宣布 Adam 算法和 Neural Machine Translation by Jointly Learning to Align and Translate 分获时间检验奖一、二名。Adam 是深度学习领域应用最广泛的优化算法之一,而 Transformer 论文则较早引入注意力机制。
刚刚,ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军
ICLR 2025时间检验奖揭晓,Adam优化器和注意力机制分别由Jimmy Ba、Yoshua Bengio领衔的两篇2015年论文摘得冠军与亚军。Adam让大模型训练更快更稳;注意力机制为Transformer奠定基础并广泛应用于各类AI模型。
VecSetX:基于VecSet框架的先进向量集合表示方法
VecSetX:一种先进的向量集合表示方法,采用多层注意力机制提升性能,引入SDF回归替代传统分类,并使用Flash Attention加速训练。
1000万上下文+2880亿参数的Llama4,却让DeepSeek们松了一口气
Meta发布的Llama4系列模型包括多模态MoE架构、超长上下文支持和优化的注意力机制。通过原生多模态预训练融合方法、轻量级后训练策略等创新技术提升了模型能力。
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention,通过只存储K而不直接存储V实现更少的内存占用和更高精度。
耶鲁、剑桥等高校联合推出 MindLLM 医疗行业 AI 工具了
人工智能工具MindLLM能将fMRI数据转化为自然语言文本,显著提升脑科学研究水平,但引发隐私保护、责任归属及伦理道德等多方面问题。