GRPO归档 - 第2页共4页

DeepSeek-R1 技术剖析：没有强化学习基础也能看懂的 PPO & GRPO

下午11时 2025/03/25 作者极市干货

.zhihu.com/p/22128744640
编辑丨极市平台
极市导读
本文以通俗易懂的方式剖析

R1-GRPO用于多模态、ChatBI、Gemma3等前沿进展：兼看KTransformers技术分享回顾

下午2时 2025/03/13 作者老刘说NLP

enManus-RL增强Agent规划能力训练框架》，https://mp.weixin.qq.co

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

下午4时 2025/03/09 作者量子位

elScope魔搭社区。
随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛

DeepSeek-R1 解读及技术报告中文版

下午2时 2025/03/03 作者机器学习算法与自然语言处理

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化，并结合蒸馏技术实现高效迁移，显著提升了多项任务表现。