Unsloth官方发布本地微调大模型指南
对LLM进行微调可以定制其行为、增强知识并优化特定任务表现。通过在专业数据集上微调预训练模型(如Llama-3.1-8B),更新领域知识,调整语气和个性化回复,提高准确性和相关性。
对LLM进行微调可以定制其行为、增强知识并优化特定任务表现。通过在专业数据集上微调预训练模型(如Llama-3.1-8B),更新领域知识,调整语气和个性化回复,提高准确性和相关性。
enManus-RL增强Agent规划能力训练框架》,https://mp.weixin.qq.co
近日,Unsloth 团队升级了微调框架,使得使用其Qwen2.5-1.5B模型仅需5GB显存,相比之前减少了约29%。新的Efficient GRPO算法通过优化内存使用效率,使VRAM需求降至原本的54.3GB。
sloth近期更新,将GRPO训练的内存使用减少了80%!只需7GB VRAM,本地就能体验AI「啊
DeepSeek R1 模型利用 GRPO 算法实现自主学习能力,仅需 7GB 显存即可训练出具备推理能力的模型,大幅降低训练门槛和成本。
unsloth团队发布量化版本的DeepSeek-R1-Distill,Qwen-32B-Q4_K_M版压缩至20GB,在单卡上运行。欢迎支持知识星球获取更多资源。