Qwen-2.5-1.5B-Instruct 归档 - 每时AI

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

2025年3月2日12时作者机器之心

ive Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们