监督微调归档

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

2025年7月21日23时作者量子位

美团团队提出Metis-RISE框架，通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型，在OpenCompass多模态推理榜单上取得了优异成绩，验证了方法的有效性和可扩展性。

2025年6月11日16时作者机器之心

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文，该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点，并展示了在多个基准测试中的卓越性能。

2025年5月31日16时作者量子位

阿里通义实验室发布MaskSearch预训练框架，提升大模型推理搜索能力，在多个开放域问答数据集上显著性能提升。该框架结合检索增强型掩码预测任务与监督微调、强化学习两种训练方法。

2025年5月10日8时作者 AIGC开放社区

微软开源了三款小参数模型Phi-4 Reasoning、mini版本Phi-4 mini-reasoning和强化学习版本Phi-4 reasoning-plus，算力消耗低，在Windows系统生态中表现突出。

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

2025年5月3日14时作者老刘说NLP

题。
最近看到一句话，很有感触，
真正的技术护城河是：十年如一日的苦活、脏活、累活，说不清、道不明的

2025年4月21日16时作者机器之心

了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。
著名 AI 研究者和博主 Se