大语言模型RLHF全链路揭秘:从策略梯度、PPO、GAE到DPO的实战指南 2025年2月26日16时 作者 PaperWeekly 可信人工智能 如果你对大语言模型(LLM)的 强化学习(RLHF) 感兴趣,又想从最基础的策略梯度优
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等 2025年2月10日12时 作者 量子位 瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于