强化学习归档 - 第36页共46页

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

2025年2月11日16时作者新智元

在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，1

2025年2月11日14时作者小兵的AI视界

2025年开年，国产大模型DeepSeek凭借低成本、高性能和全开源特性震撼全球。从数学竞赛到汽车智能座舱，DeepSeek重塑了多个行业应用，并在技术突破和实际落地方面展现了巨大潜力。

2025年2月10日23时作者 GitHubStore

该项目基于Hugging Face Open-R1和trl构建，并重现了DeepSeek R1训练方案。通过合成数据生成、监督训练和强化学习（使用GRPO策略优化）等步骤，旨在提高模型进行文本到图信息提取的能力。

2025年2月9日23时作者智东西

模型：
DeepSeek-LLM（V1）完善了全栈框架，主要follow LLaMA；
DeepSe

2025年2月9日12时作者量子位

研究团队通过对比SFT和RL两种方法发现，长CoT的生成需要大量的计算资源。他们提出了四个关键发现：SFT并非必需但能简化训练并提高效率；推理能力随着训练计算增加而出现，但并非总是如此；可验证奖励函数对增长CoT至关重要；基模型中的错误修正等技能需要通过RL有效地激励。

2025年2月9日12时作者 Z Potentials

DeepSeek仅用600万美元训练出强大AI模型引起广泛关注，但其真正的价值在于推动技术发展。文章指出，美国的大型AI实验室应将AI的安全研究和开发作为优先事项，强调迈向AGI（通用人工智能）才是关键目标。