CUDA 归档 - 第2页共4页

斯坦福华人天团意外爆冷！AI用纯CUDA-C编内核，竟干翻PyTorch？

2025年5月31日16时作者新智元

yTorch专家内核！斯坦福华人团队用纯CUDA-C写出的AI生成内核，瞬间惊艳圈内并登上Hacke

2025年5月26日14时作者 GiantPandaCV

表到本公众号。原始地址为：https://veitner.bearblog.dev/load-and

2025年5月24日14时作者 GiantPandaCV

778199261291694
编辑丨GiantPandaLLM
0x00 前言
后续会陆续更新一些

2025年5月19日23时作者新智元

演讲中官宣：中国台湾，将建起首台世界级的巨型AI超算，以及全新的英伟达办公室！此外，最强AI芯片GB

2025年4月25日14时作者 GiantPandaCV

在本文中，作者解释了CUDA中矩阵行优先格式的含义，并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。

2025年4月21日14时作者 GiantPandaCV

utlass-tutorial-design-of-a-gemm-kernel/
前言
大家好，我是

2025年4月18日14时作者 GiantPandaCV

utorial-hopper-tma/
之前解读过两期LMDeploy Turbomind里的源码，

2025年4月12日19时作者 GiantPandaCV

re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然

2025年4月12日19时作者 GiantPandaCV

别是Layout代数相关的内容, 后面再逐渐细化到一些硬件实现访存优化和一些算子融合相关的话题, 准

2025年4月9日14时作者 GiantPandaCV

表到本公众号。
让向量求和变得非常快
06 Apr, 2025
在这篇博客文章中，我们将简要描述如何