DPO 归档 - 每时AI

邱锡鹏老师团队发现SFT与DPO破壁统一：内隐奖励作为桥梁

本文探讨了SFT与DPO的理论关联及其改进方法，提出小学习率策略与基于f散度的新目标可显著提升LLM性能，揭示隐式奖励在两者优化中的作用，并为未来统一框架提供了基础。

2025年6月20日8时作者 NLP工程化

Unsloth发布了关于大模型强化学习的完整指南，涵盖目标、关键作用及在AI代理中的应用等内容，并提供了GRPO、RLHF、DPO和奖励函数的相关信息。

MLNLP社区致力于推动国内外自然语言处理和机器学习领域内的交流合作。文章提出GVPO算法，通过KL约束的奖励最大化解析解解决了GRPO中的训练不稳定问题，并支持多样化的采样分布，具有较好的稳定性和表现。

MLNLP社区推出了一门通过动画展示强化学习的课程，帮助初学者快速入门这一复杂领域。项目内容包括基础概念介绍和常见算法演示，通过简洁的笔记和动画演示来解释强化学习的核心原理。

2025年3月6日16时作者机器之心

2B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维

2025年3月4日16时作者机器之心

在人工智能领域，直接偏好优化(DPO)方法因其简单易用和稳定性而受到广泛关注，但其训练过程中会出现似然位移现象。本文提出DPO-Shift方法，在Bradley-Terry模型中增设参数函数以缓解该问题，并通过理论分析与实验验证了其有效性。

2025年2月26日16时作者 PaperWeekly

可信人工智能
如果你对大语言模型（LLM）的
强化学习（RLHF）
感兴趣，又想从最基础的策略梯度优

2025年1月23日16时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2025年1月9日23时作者新智元

新智元报道
编辑：LRS
【新智元导读】
10个AI领域，50篇精品论文，每周看一篇，到2026就能

2025年1月8日23时作者机器之心

机器之心报道
编辑：张倩
老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最