斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch? 2025年5月31日16时 作者 新智元 yTorch专家内核!斯坦福华人团队用纯CUDA-C写出的AI生成内核,瞬间惊艳圈内并登上Hacke
【CUDA 博客】使用PTX指令更高效地加载和存储矩阵 2025年5月26日14时 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/load-and
[Triton编程][基础] Triton极简入门: Triton Vector Add 2025年5月24日14时 作者 GiantPandaCV 778199261291694 编辑丨GiantPandaLLM 0x00 前言 后续会陆续更新一些
【博客翻译】CUDA中的索引 2025年4月25日14时 作者 GiantPandaCV 在本文中,作者解释了CUDA中矩阵行优先格式的含义,并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。
一起聊聊Nvidia Hopper新特性之Pipeline 2025年4月21日14时 作者 GiantPandaCV utlass-tutorial-design-of-a-gemm-kernel/ 前言 大家好,我是
一起聊聊Nvidia Hopper 新特性之TMA 2025年4月18日14时 作者 GiantPandaCV utorial-hopper-tma/ 之前解读过两期LMDeploy Turbomind里的源码,
Tensor-005 CUTLASS简介 2025年4月12日19时 作者 GiantPandaCV re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然
Tensor-001 矩阵乘法分块乘法概述 2025年4月12日19时 作者 GiantPandaCV 别是Layout代数相关的内容, 后面再逐渐细化到一些硬件实现访存优化和一些算子融合相关的话题, 准