ACL 2025 过程奖励模型深陷“信任泥潭”,PRMBench撕开伪高精度面具 2025年7月22日23时 作者 PaperWeekly (PRMs)的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键“幕后功臣”,负责评估推理过程
过程级奖励模型遭遇“信任危机”?PRMBench精细化基准揭示LLM强大推理幕后功臣的潜在缺陷 2025年1月14日8时 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | 宋明阳 单位 | 复旦大学博士生 研究方向 | VLM