奖励建模归档

从打分器到思考者：RM-R1用推理重塑模型价值判断

2025年5月31日23时作者机器之心

言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却

2025年4月20日23时作者 NLP工程化

Sebastian Raschka 分享了关于强化学习推理现状的文章内容，包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等，并探讨了训练推理模型的经验和研究论文。

2025年4月16日16时作者机器之心

业内人已在询问「这个魔法般模型」的出处。
有人对模型效果颇为认可，好奇如何体验。
神秘模型 Moga