GiantPandaCV
【ml-engineering 翻译系列】NV GPU Debug实用指南(如何监控真实GPU利用率,正确判断是否重启GPU等)
ering 。这篇文档是NVIDIA GPU故障排查的实用指南,主要包含以下干货内容:
Xid错误的
《超大规模操作手册:在 GPU 集群上训练 》Part3(寻找最佳的GPU优化配置)
在模型大小和Batch Size确定后,通过实验逐步调整并行技术组合以优化训练吞吐量。讨论了不同配置下的内存、通信瓶颈以及节点数量增加对效率的影响,并强调了实际实验设计中的挑战与教训。
Windsurf(可平替 Cursor) 的使用体验和技巧
Windsurf 是由 Codeium 开发的 VSCode 插件,支持多模型推理,并且最近引入了意图识别和 Turbo Mode 2.0 功能。相比 Cursor,WindSurf 提供更快的自动补全功能、自定义图标及工具链支持等新特性,价格更优惠。