DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星
sloth近期更新,将GRPO训练的内存使用减少了80%!只需7GB VRAM,本地就能体验AI「啊
sloth近期更新,将GRPO训练的内存使用减少了80%!只需7GB VRAM,本地就能体验AI「啊
DeepSeek R1 模型利用 GRPO 算法实现自主学习能力,仅需 7GB 显存即可训练出具备推理能力的模型,大幅降低训练门槛和成本。
unsloth团队发布量化版本的DeepSeek-R1-Distill,Qwen-32B-Q4_K_M版压缩至20GB,在单卡上运行。欢迎支持知识星球获取更多资源。