GRPO 归档 - 第3页共4页

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

2025年3月2日12时作者机器之心

ive Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们

2025年2月27日16时作者 NLP工程化

通过Unsloth技术减少90%VRAM使用量训练自己的推理LLM模型

2025年2月22日23时作者 PaperWeekly

可信人工智能
开篇
在强化学习（RL）中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为
单

2025年2月20日23时作者机器之心

VLM-R1 是一个将 DeepSeek R1 方法应用于视觉语言模型的新开源项目，展示了其在稳定性、泛化能力等方面的优越性能，并提供简单易用的训练流程。

2025年2月18日12时作者机器之心

复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力，项目代码简洁，仅依赖基础库实现，训练 7B 模型成本低至 7.3 元。

2025年2月17日23时作者 PaperWeekly

中，有几个关键元素至关重要：首先是奖励模型和价值函数，它们用于评估每个动作或策略的优劣，从而决定模型

2025年2月16日12时作者机器之心

本周通讯解读了三个值得关注的技术与行业动态。DeepSeek-R1 在强化学习中采用GRPO替代PPO，减少人类标注数据并设计精妙奖励机制；ARK展望AI对经济的影响；Kimi 1.5和DeepSeek-R1均使用Rule-based Reward提升模型推理能力。

MLNLP是国内外知名的人工智能社区，致力于促进机器学习与自然语言处理领域的学术交流和技术进步。文章讨论了Reinforce++和GRPO作为PPO变体的应用及其改进，包括去除critic模型、使用远程奖励模型以及在GRPO基础上优化KL估计方法等技术进展。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进