SRFT 归档 - 每时AI

探索为什么要融合SFT和RL，以及应该怎么融合

2025年7月19日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2025年7月2日11时作者量子位

练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。
中国科学院自动化研究所深度强化学习团