GRPO 归档 - 每时AI

探索为什么要融合SFT和RL，以及应该怎么融合

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月23日11时作者 HyperAI超神经

大学及 MIT-IBM 沃森实验室的跨学科团队，共同构建了一个专业级医学推理基准测试数据集，并提出了

2025年6月22日16时作者机器之心

可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎

2025年6月20日8时作者 NLP工程化

Unsloth发布了关于大模型强化学习的完整指南，涵盖目标、关键作用及在AI代理中的应用等内容，并提供了GRPO、RLHF、DPO和奖励函数的相关信息。

MLNLP社区致力于推动国内外自然语言处理和机器学习领域内的交流合作。文章提出GVPO算法，通过KL约束的奖励最大化解析解解决了GRPO中的训练不稳定问题，并支持多样化的采样分布，具有较好的稳定性和表现。

2025年5月31日16时作者新智元

推理了？UC伯克利的华人团队发现，LLM居然跟人一样！靠自信来训练AI后，数学、编程性能提升惊人。

2025年5月28日8时作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1，旨在提升大语言模型在长上下文中的泛化能力，并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。

2025年5月26日11时作者机器之心

微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人

2025年5月15日8时作者 NLP工程化

Unsloth 发布了GRPO的新互动教程，用户可以轻松微调Qwen3-Base并开启其思考模式，实现几乎无监督学习。