样本效率归档

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

2025年5月24日16时作者新智元

名噪一时。而强化学习算法GRPO，是背后最大的功臣之一。然而，开源界对强化学习算法的探索并没有终结。

2025年5月10日16时作者新智元

调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

2025年4月26日16时作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高

2025年2月17日8时作者 NLP工程化

深度强化学习在样本效率、奖励设计和稳定性等方面存在问题，未来可能通过更好的模型基础学习、迁移学习等方向解决。