性能提升11.74%!腾讯优图提出激励推理,专攻复杂指令
腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力,1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力,有效提升LLMs在复杂指令下的表现。
腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力,1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力,有效提升LLMs在复杂指令下的表现。
清华大学与英伟达、斯坦福联合提出NFT(Negative-aware FineTuning)方案,通过构造隐式负向模型利用错误数据训练正向模型,使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距,且损失函数梯度等价于On-Policy条件下的GRPO算法。
伊利诺伊大学香槟分校开发的Time-R1模型通过三阶段强化学习训练提升了语言模型的时间推理能力,包括时间戳推断、事件排序和生成合理未来场景等任务。该模型在多个时间推理任务中表现优异,并开源了代码和数据集以促进研究和技术发展。
文章总结了强化学习(RL)在大型语言模型(LLM)中的应用,指出传统监督学习的局限性,并阐述了RL作为一种新的扩展方法如何通过弱监督信号和正/负权重机制,解决数据生成性和训练效率问题。
AICon 大会即将召开,韩艾将分享基于强化学习的异构多智能体联合进化算法。大会涵盖多模态应用、推理性能优化等多个专题论坛,为 AI 技术开发者提供前沿洞察与实践经验。
Unsloth发布了关于大模型强化学习的完整指南,涵盖目标、关键作用及在AI代理中的应用等内容,并提供了GRPO、RLHF、DPO和奖励函数的相关信息。