CUTLASS CuTe GEMM细节分析(三)——Swizzle模板参数的取值
本文探讨了如何为新的共享内存逻辑Layout选择Swizzle模板参数B、M和S。通过简化分析,确定了M、S与PTX指令和GPU共享内存多Bank结构之间的关系,并基于实例推导出合适的B值,以避免Bank Conflict。
本文探讨了如何为新的共享内存逻辑Layout选择Swizzle模板参数B、M和S。通过简化分析,确定了M、S与PTX指令和GPU共享内存多Bank结构之间的关系,并基于实例推导出合适的B值,以避免Bank Conflict。
小冬瓜AIGC发布的X-R1开源框架课程,手撕PyTorch的五大并行算法DP、TP、PP、CP、EP,并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具,适合对LLM技术有兴趣的学员。