感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” UIUC&阿里通义 2025年7月11日16时 作者 量子位 学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的 专注于多模态推理 的强化学习算法 PAP
DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来! 2025年5月6日19时 作者 PaperAgent RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。