RPT 归档 - 每时AI

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

2025年6月11日23时作者量子位

微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式，将强化学习深度融入预训练阶段，通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。