Anima Anandkumar 归档

DeepSeek-R1：通过强化学习提高大语言模型的推理能力

2025年2月7日8时作者 NLP工程化

论文介绍了DeepSeek-R1-Zero和DeepSeek-R1两种推理模型，前者通过大规模强化学习训练，在没有监督微调下展现卓越推理能力，后者结合多阶段训练和冷启动数据优化其性能。

2025年1月16日16时作者新智元

新智元报道
编辑：KingHZ
【新智元导读】
AI「幻觉」可能在一般人看来是模型的胡言乱语，但它为