刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。他们提出的强化学习理论为 AI 研究奠定了基础,并在机器人技能学习、网络拥堵控制等领域取得了成功。

大规模实用化量子化学计算曙光显现,ByteDance Research开源工具集ByteQC

字节跳动 ByteDance Research 团队开发并开源了 ByteQC,一款基于 GPU 加速的大规模量子化学计算工具集,显著加速了量子化学算法,并实现了更大规模的模拟。

DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

在人工智能领域,直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注,但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法,在Bradley-Terry模型中增设参数函数以缓解该问题,并通过理论分析与实验验证了其有效性。