奖励模型归档 - 第2页共2页

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

2025年3月24日16时作者机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模

2025年3月12日16时作者机器之心

公开了文生图模型技术细节，涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法，也详细披

2025年2月19日8时作者量子位

OpenAI前员工John Schulman和Barret Zoph分享了他们在后训练阶段开发ChatGPT的经验，并发布了相关PPT。他们讨论了监督微调、奖励模型和强化学习等关键组成部分，以及如何处理拼写错误和其他挑战。

MLNLP社区介绍了DeepSeek R1论文，并重点提到了基于规则的奖励模型和多阶段训练策略，作者通过与AlphaGo的对比分享了个人见解。文章还提及技术交流群邀请函和MLNLP社区介绍。

2025年1月27日12时作者机器之心

机器之心报道
编辑：Panda
在根据某个奖励微调生成式语言模型时，使用 KL 正则化的强化学习（K

2025年1月21日23时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2025年1月13日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

2025年1月10日16时作者机器之心

机器之心报道
机器之心编辑部
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。

2024年12月29日22时作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

2024年11月28日20时作者量子位

清华大学与面壁团队开源新一代主动Agent交互范式，使AI具备主动观察环境和提出任务的能力。相比传统被动式Agent，主动式Agent能够预判用户需求并自主帮助解决问题。