DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

在人工智能领域,直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注,但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法,在Bradley-Terry模型中增设参数函数以缓解该问题,并通过理论分析与实验验证了其有效性。

CVPR 2025录用结果出炉!这些方向杀疯了!

CVPR 2025录用结果出炉!今年共13008篇论文投稿,最终录取率仅为22.1%。大模型时代的研究方向集中在端到端、闭环仿真3DGS、多模态大模型和扩散模型等前沿领域。科研辅导服务帮助学生解决选题、实验设计、创新点设计等问题。