Qwen-2.5-Math-7B-Oat-Zero 归档 - 每时AI

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

2025年4月26日16时作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高