X-R1: 不到50元,人人都能复现0.5B Aha Moment
X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。
推理模型DeepSeek R1展示了其自我进化的能力和解决复杂问题的潜力。该模型采用纯强化学习技术,并结合监督微调提升推理能力。然而也有观点认为这更侧重于工程实践而非科学创新。
DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法,成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview,展示了小模型通过强化学习也能实现飞跃的潜力。
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。
本所发表的看法再一次受到关注与热议。2 月 9 日,谷歌 DeepMind 首席执行官 Demis