一篇针对AMD MI300x的FP8 GEMM(矩阵乘法)做性能优化的文章 2025年6月6日8时 作者 NLP工程化 文章介绍了使用LDS和MFMA优化矩阵计算的解决方案及其关键性能提升策略和技术,如LDS瓦片大小、块大小及双缓冲等。