强化学习归档 - 第11页共46页

类R1训练不再只看结果对错！港中文推出SophiaVL-R1模型

2025年6月6日23时作者机器之心

SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型，它不仅奖励结果的准确性，还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法，SophiaVL-R1 提升了模型的推理质量和泛化能力，在多模态数学和通用测试数据集上表现优于大型模型。

2025年6月6日16时作者量子位

理与连续动作执行的智能体来了。
通义实验室推出WebWalker（ACL2025）续作自主信息检索智

2025年6月6日14时作者老刘说NLP

今天是2025年6月6日，星期五，北京晴。文章回顾了大模型相关技术进展，包括针对性学习、推理数据收集、多模态应用及强化学习评估偏差等内容。关键点在于明确问题并针对性学习，学会提问和理论与实践结合，以提升大模型性能。

2025年6月5日23时作者量子位

近期清华大学团队提出的研究表明，在强化学习训练大模型时，仅使用20%的高熵token就能显著提升模型性能。研究指出80%低熵token会影响模型推理能力，并可能起到负面作用。

2025年6月5日16时作者新智元

而算力浪费和集群效率低成为一大难题。这次，华为团队祭出两大黑科技直接破局。不仅在CloudMatri

2025年6月5日16时作者机器之心

进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时，能够自主决策获取外部知识的策略？
华

2025年6月5日8时作者机器之心

NVIDIA团队提出ProRL框架，在2000步以上长期强化学习基础上，大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步，不仅提高了解题准确率，还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。

2025年5月31日23时作者机器之心

融入推理过程。它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。例如

2025年5月31日16时作者量子位

阿里通义实验室发布MaskSearch预训练框架，提升大模型推理搜索能力，在多个开放域问答数据集上显著性能提升。该框架结合检索增强型掩码预测任务与监督微调、强化学习两种训练方法。