强化学习归档 - 第17页共46页

仅需1个数据，就能让大模型的数学推理性能大大增强？

2025年5月9日23时作者机器之心

最近研究发现仅使用一个数学训练数据就能大幅提升大型语言模型在数学推理任务上的表现，论文提出了1-shot RLVR方法，并展示了其在多个数学和非数学推理任务上的应用效果。

2025年5月9日16时作者 AI前线

阿里巴巴发布ZeroSearch技术，通过强化学习允许大语言模型开发高级搜索功能，无需真实搜索引擎交互，显著降低API成本至几乎为零。

2025年5月9日11时作者机器之心

姜东志博士提出了一种新型的文本生成图像模型T2I-R1，融合了语义层面和细粒度令牌层面的协同推理策略。该模型通过强化学习方法统一了这两个层次的推理解析过程，并使用集成视觉专家模型作为奖励机制来评估生成图片的质量，显著提高了图像生成的效果。

2025年5月9日11时作者 AIGC开放社区

阿里巴巴开源了创新搜索引擎ZeroSearch，通过强化学习提升大模型搜索能力，参数70亿和140亿的监督微调模型分别达到33.06%和33.97%，相比谷歌提升了0.5个百分点。

2025年5月8日11时作者机器之心

rning with Verifiable Rewards（RLVR）范式下涌现出一批
「Zero

2025年5月7日16时作者机器之心

系统，工具学习以及大语言模型智能体等，英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者，

2025年5月7日11时作者机器之心

AI 企业竞相追逐的焦点。
但近年来，推理效率已成为模型部署和性能的关键限制因素。
基于此，英伟达

2025年5月6日16时作者新智元

新王Llama-Nemotron，是怎么训练出来的？刚刚放出的论文，把一切细节毫无保留地全部揭秘了！