对齐模型归档

大语言模型RLHF全链路揭秘：从策略梯度、PPO、GAE到DPO的实战指南

2025年2月26日16时作者 PaperWeekly

可信人工智能
如果你对大语言模型（LLM）的
强化学习（RLHF）
感兴趣，又想从最基础的策略梯度优

2025年2月10日12时作者量子位

瞩目的能力，如何确保它们⽣成的回复既符合预期又安全，始终是⼀项关键挑战。
传统的偏好对⻬⽅法，如基于