强化学习
DeepSeek为啥这么火?技术内幕+应用场景大揭秘
2025年开年,国产大模型DeepSeek凭借低成本、高性能和全开源特性震撼全球。从数学竞赛到汽车智能座舱,DeepSeek重塑了多个行业应用,并在技术突破和实际落地方面展现了巨大潜力。
开源复现DeepSeek R1的文本到图谱抽取训练open-r1-text2graph
该项目基于Hugging Face Open-R1和trl构建,并重现了DeepSeek R1训练方案。通过合成数据生成、监督训练和强化学习(使用GRPO策略优化)等步骤,旨在提高模型进行文本到图信息提取的能力。
7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%
Unsloth AI 提供了 GRPO 训练算法,使用户能够在仅 7GB VRAM 上重现 DeepSeek R1-Zero 的‘顿悟时刻’,相比传统方法减少约80%的 VRAM 使用量。
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。