美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈

美团团队提出Metis-RISE框架,通过强化学习激励和监督微调增强多模态大语言模型的推理能力。最终产生7B和72B参数的模型,在OpenCompass多模态推理榜单上取得了优异成绩,验证了方法的有效性和可扩展性。

103K「硬核」题,让大模型突破数学推理瓶颈

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文,该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点,并展示了在多个基准测试中的卓越性能。

阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升

阿里通义实验室发布MaskSearch预训练框架,提升大模型推理搜索能力,在多个开放域问答数据集上显著性能提升。该框架结合检索增强型掩码预测任务与监督微调、强化学习两种训练方法。