强化学习
视觉感知RAG × 多模态推理 × 强化学习 = VRAG-RL
最新研究成果VRAG-RL通过引入强化学习和多模态智能体训练,解决视觉丰富信息检索增强生成任务中的挑战,显著提升了视觉语言模型在检索、推理和理解视觉信息方面的能力。
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
NVIDIA团队提出ProRL框架,在2000步以上长期强化学习基础上,大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步,不仅提高了解题准确率,还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
阿里通义实验室发布MaskSearch预训练框架,提升大模型推理搜索能力,在多个开放域问答数据集上显著性能提升。该框架结合检索增强型掩码预测任务与监督微调、强化学习两种训练方法。
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 Science子刊
机器狗通过强化学习学会了打羽毛球,最高挥拍速度达12米/秒,在与人类选手的协作比赛中展示了精准和类人行为。研究结果发表在Science Robotics上。
DeepSeek 跃居全球第二 AI 实验室,中美正式并驾齐驱!
DeepSeek R1 0528 版本在Artificial Analysis的最新排名中得分68分,几乎与闭源模型持平。这反映了开源模型与闭源模型之间差距的进一步缩小,强化学习在提升AI性能方面的效率凸显,并标志着中美两国在人工智能技术领域的齐头并进新阶段。
Artificial Analysis:DeepSeek成为世界前二AGI实验室
DeepSeek R1-0528版本超越xAI、Meta等成为全球第二大人工智能实验室,并与谷歌并列。其智能指数得分从60分跃升至68分,超过多个顶级模型,提升主要体现在数学竞赛、代码生成和推理方面。
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力,无需外部奖励信号或标准答案。与传统强化学习相比,Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
本文提出ZeroSearch框架,无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块,并采用课程学习逐步降低文档质量来激发推理能力,显著降低训练成本和提高性能。