奖励函数归档 - 每时AI

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

2025年6月22日16时作者机器之心

可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

2025年3月11日12时作者机器之心

数据，7B 参数模型能单纯通过强化学习学会玩数独吗？
近日，技术博主 Hrishbh Dalal 的