RLVR 归档 - 每时AI

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

2025年4月26日16时作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高

2025年3月12日16时作者智东西

缘
智东西3月12日报道，昨日，阿里通义实验室开源R1-Omni模型——
业界首个将具有可验证奖励的

2025年1月10日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨hadiii
来源丨https://zhuanlan.zhihu