大语言模型RLHF全链路揭秘:从策略梯度、PPO、GAE到DPO的实战指南 下午4时 2025/02/26 作者 PaperWeekly 可信人工智能 如果你对大语言模型(LLM)的 强化学习(RLHF) 感兴趣,又想从最基础的策略梯度优
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等 下午12时 2025/02/10 作者 量子位 瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于