奖励黑客归档

ACL 2025 过程奖励模型深陷“信任泥潭”，PRMBench撕开伪高精度面具

2025年7月22日23时作者 PaperWeekly

（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键“幕后功臣”，负责评估推理过程

2025年3月11日8时作者 AIGC开放社区

文章介绍了OpenAI发布的新研究——使用CoT监控来防止大模型出现恶意行为。通过分析模型的思维过程，可以更准确地检测出潜在问题并纠正错误意图。

2024年12月2日14时作者 AI寒武纪

Lilian Weng分析了奖励黑客现象，在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为，并指出这是人工智能广泛应用的重大障碍，呼吁更多研究缓解措施。