奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式 2025年7月10日16时 作者 机器之心 望迈向 AGI 的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。 目前,主流的