强化学习(RLVR) 归档 - 每时AI

DeepSeek-R1发布后的100天复现之旅方法总结

2025年5月3日14时作者机器学习算法与自然语言处理

MLNLP社区发布论文介绍复现推理大模型技术，强调让AI学会思考而非仅背答案；提出监督微调与强化学习两大方法，并讨论未来发展方向。