揭秘大模型强推理能力幕后功臣“缺陷”,过程级奖励模型新基准来了 下午11时 2025/01/15 作者 量子位 复旦大学宋明阳 投稿 量子位 | 公众号 QbitAI 截止目前,o1 等强推理模型的出现证明了 P
过程级奖励模型遭遇“信任危机”?PRMBench精细化基准揭示LLM强大推理幕后功臣的潜在缺陷 上午8时 2025/01/14 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | 宋明阳 单位 | 复旦大学博士生 研究方向 | VLM