强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式! 2025年6月29日16时 作者 新智元 伯克利团队提出InFOM模型,通过流匹配和占据模型实现意图感知的未来状态预测,在强化学习预训练微调任务中表现优异。