虚假奖励归档 - 每时AI

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

2025年5月29日8时作者机器之心

本文一出，所有的大语言模型（LLM）+ 强化学习（RL）都要被质疑是否有意义了。
这周二，一篇来自华