监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力

清华大学与英伟达、斯坦福联合提出NFT(Negative-aware FineTuning)方案,通过构造隐式负向模型利用错误数据训练正向模型,使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距,且损失函数梯度等价于On-Policy条件下的GRPO算法。

大模型终于能预测未来了?伊利诺伊黑科技让AI化身“时间预言家”

伊利诺伊大学香槟分校开发的Time-R1模型通过三阶段强化学习训练提升了语言模型的时间推理能力,包括时间戳推断、事件排序和生成合理未来场景等任务。该模型在多个时间推理任务中表现优异,并开源了代码和数据集以促进研究和技术发展。

京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法

AICon 大会即将召开,韩艾将分享基于强化学习的异构多智能体联合进化算法。大会涵盖多模态应用、推理性能优化等多个专题论坛,为 AI 技术开发者提供前沿洞察与实践经验。