MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B 下午11时 2025/06/11 作者 量子位 微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式,将强化学习深度融入预训练阶段,通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。