LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了 2025年5月29日8时 作者 机器之心 本文一出,所有的大语言模型(LLM)+ 强化学习(RL)都要被质疑是否有意义了。 这周二,一篇来自华