DeepSeek-R1:通过强化学习提高大语言模型的推理能力 2025年2月7日8时 作者 NLP工程化 论文介绍了DeepSeek-R1-Zero和DeepSeek-R1两种推理模型,前者通过大规模强化学习训练,在没有监督微调下展现卓越推理能力,后者结合多阶段训练和冷启动数据优化其性能。