跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

unsloth

万亿参数模型Kimi-K2部署、微调需要多大配置及4个代表性的大模型训练框架

2025年7月12日19时 作者 老刘说NLP

今天是2025年7月12日,星期六,北京有雨。文章介绍了四个代表性大模型训练框架,并使用资源计算器分析了最新万亿参数模型Kimi-K2的运行和微调需求。

分类 大模型 标签 Axolotl、 DeepSpeed、 Kimi-K2、 LlamaFactory、 unsloth、 资源计算器 发表评论

DeepSeek-V3-0526 闪现后秒删!

2025年5月26日23时 作者 AGI Hunt

Unsloth在文档中提到DeepSeek-V3-0526模型,但随后删除。该模型性能强劲,被描述为世界上表现最好的开源模型之一。Daniel Han认为V3-0526可能基于传言和推测发布。社区对此表示关注和期待。

分类 分享 标签 Claude 4 Opus、 Daniel Han、 DeepSeek-V3-0526、 GPT-4.5、 unsloth、 神秘的发布时间 发表评论

Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook)

2025年5月15日8时 作者 NLP工程化

Unsloth 发布了GRPO的新互动教程,用户可以轻松微调Qwen3-Base并开启其思考模式,实现几乎无监督学习。

分类 开源 标签 Google Colab、 GRPO、 Qwen3-Base、 unsloth、 微信buxingtianxia21、 无监督学习 发表评论

Unsloth 发布了 Dynamic v2.0 量化

2025年4月26日8时 作者 NLP工程化

Unsloth发布Dynamic v2.0量化版本,在MMLU和KL Divergence上表现更好,并修复了Llama.cpp中的问题,同时推出了新量化版本DeepSeek-R1/DeepSeek-V3-0324。

分类 开源 标签 Dynamic v2.0 量化、 KL Divergence、 MMLU、 RoPE 实现问题、 unsloth、 性能提升 发表评论

Unsloth官方发布本地微调大模型指南

2025年3月15日23时 作者 PyTorch研习社

对LLM进行微调可以定制其行为、增强知识并优化特定任务表现。通过在专业数据集上微调预训练模型(如Llama-3.1-8B),更新领域知识,调整语气和个性化回复,提高准确性和相关性。

分类 分享 标签 ChatGPT-4、 DeepSeek-R1、 Llama-3.1-8B、 OpenAI、 unsloth、 微调 发表评论

R1-GRPO用于多模态、ChatBI、Gemma3等前沿进展:兼看KTransformers技术分享回顾

2025年3月13日14时 作者 老刘说NLP

enManus-RL增强Agent规划能力训练框架》,https://mp.weixin.qq.co

分类 大模型 标签 ChatBI、 Gemma3、 GRPO、 NLP、 unsloth、 老刘说NLP 发表评论

训练您自己的推理 LLM

2025年2月27日16时 作者 NLP工程化

通过Unsloth技术减少90%VRAM使用量训练自己的推理LLM模型

分类 开源 标签 90%、 DeepSeek、 GRPO、 LLM、 unsloth、 VRAM 发表评论

Unsloth 再升级,Qwen2.5-1.5B 模型微调仅需 5GB 显存,较2周前再降29%

2025年2月23日16时 作者 AI工程化

近日,Unsloth 团队升级了微调框架,使得使用其Qwen2.5-1.5B模型仅需5GB显存,相比之前减少了约29%。新的Efficient GRPO算法通过优化内存使用效率,使VRAM需求降至原本的54.3GB。

分类 分享 标签 Qwen2.5-1.5B、 unsloth、 UnslothEfficientGRPO、 内存使用效率、 智能异步卸载、 梯度检查点 发表评论

unsloth在微调一个Qwen2.5-1.5B 模型只需要5GB显存

2025年2月22日8时 作者 NLP工程化

unsloth优化微调框架,Qwen2.5-1.5B模型微调仅需5GB显存。

分类 开源 标签 Qwen2.5-1.5B、 unsloth、 unsloth.ai、 微调框架优化、 显存要求、 模型训练 发表评论

新手友好的 LLM 微调工具库:unsloth

2025年2月14日8时 作者 NLP工程化

该项目是用于微调和优化大型语言模型(LLM)的Python工具库,通过动态量化和显存优化技术提高模型微调速度并降低80%以上显存占用。

分类 开源 标签 70%-80%、 Python工具库、 unsloth、 动态量化、 显存优化技术、 模型微调速度 发表评论
较早文章
页面1 页面2 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • GraphRAG遇见事件图谱及llama、Qwen、DeepSeek等主流大模型架构对比总结
  • 你们关注的大瑜到底是谁?
  • 征集全国首部AI大模型私有化部署标准起草单位和个人!21家单位已加入
  • 从转录到摘要一气呵成!这个AI把语音处理流水线塞进单个模型,效率提升300%
  • 字越少,事越大!

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×