DeepSpeed 归档 - 每时AI

万亿参数模型Kimi-K2部署、微调需要多大配置及4个代表性的大模型训练框架

2025年7月12日19时作者老刘说NLP

今天是2025年7月12日，星期六，北京有雨。文章介绍了四个代表性大模型训练框架，并使用资源计算器分析了最新万亿参数模型Kimi-K2的运行和微调需求。

如何估算大模型推理及微调的GPU显存需求？影响因素、计算规则及注意事项

2025年5月4日14时作者老刘说NLP

有介绍过，这次再温习一遍，讲的再细致些
计算LLM的显存需要考虑多个因素，
了解核心组件（参数、优化

探索PsycoLLM：合肥工业大学推出专注于中文心理的大型语言模型

2025年1月25日14时作者小兵的AI视界

在当今数字化浪潮席卷全球的时代背景下，人工智能技术正以前所未有的速度渗透到各个领域，为人们的生活和工

从啥也不会到DeepSpeed——一篇大模型分布式训练的学习过程总结

2024年12月15日14时2024年11月22日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨elihe@知乎（已授权）
来源丨https://zhuanla