机器之心
刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto
强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。他们提出的强化学习理论为 AI 研究奠定了基础,并在机器人技能学习、网络拥堵控制等领域取得了成功。
大规模实用化量子化学计算曙光显现,ByteDance Research开源工具集ByteQC
字节跳动 ByteDance Research 团队开发并开源了 ByteQC,一款基于 GPU 加速的大规模量子化学计算工具集,显著加速了量子化学算法,并实现了更大规模的模拟。
上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了
AIxiv专栏介绍及新模型MoM发布。MoM通过混合记忆机制实现大规模内存扩展,显著提升长序列建模能力,在in-context recall-intensive任务上超越Transformer。
DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移
在人工智能领域,直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注,但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法,在Bradley-Terry模型中增设参数函数以缓解该问题,并通过理论分析与实验验证了其有效性。
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
视觉强化微调项目 Visual-RFT 通过规则奖励和强化学习方法,实现了视觉语言模型在目标检测、分类等任务中的高效提升。项目已开源,欢迎加入。