PRMBench 归档 - 每时AI

ACL 2025 过程奖励模型深陷“信任泥潭”，PRMBench撕开伪高精度面具

2025年7月22日23时作者 PaperWeekly

（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键“幕后功臣”，负责评估推理过程

揭秘大模型强推理能力幕后功臣“缺陷”，过程级奖励模型新基准来了

2025年1月15日23时作者量子位

复旦大学宋明阳投稿
量子位 | 公众号 QbitAI
截止目前，o1 等强推理模型的出现证明了 P

过程级奖励模型遭遇“信任危机”？PRMBench精细化基准揭示LLM强大推理幕后功臣的潜在缺陷

2025年1月14日8时作者 PaperWeekly

©PaperWeekly 原创 · 作者 |
宋明阳
单位 |
复旦大学博士生
研究方向 |
VLM