GiantPandaCV
【博客翻译】CUDA中的索引
在本文中,作者解释了CUDA中矩阵行优先格式的含义,并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。
图解DeepSeek V3 biased_grouped_topk cuda融合算子fused_moe_gate kernel
thub.com/sgl-project/sglang/blob/main/python/sglan