GiantPandaCV，作者每时AI

Tensor-005 CUTLASS简介

2025年4月12日19时作者 GiantPandaCV

re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然

2025年4月12日19时作者 GiantPandaCV

代码的作者
Cuda-Samples
[1]
中的cudaTensorCoreGemm 代码
知乎:

2025年4月12日19时作者 GiantPandaCV

别是Layout代数相关的内容, 后面再逐渐细化到一些硬件实现访存优化和一些算子融合相关的话题, 准

2025年4月9日14时作者 GiantPandaCV

表到本公众号。
让向量求和变得非常快
06 Apr, 2025
在这篇博客文章中，我们将简要描述如何

2025年4月9日14时作者 GiantPandaCV

DeepSeek V3 SGLang 优化
继续我们的DeepSeek V3与SGLang集成的技术

2025年4月6日14时作者 GiantPandaCV

Llama 4
系列中的首批模型，这些模型将使人们能够构建更个性化的多模态体验。
Llama 4 S

2025年4月4日14时作者 GiantPandaCV

2356369
编辑丨GiantPandaLLM
文末有送书福利~
0x00 前言
写在最前面，
新

2025年4月3日14时作者 GiantPandaCV

R1 应用一个fuse shared experts到普通256个expert中的工作 (https

2025年3月26日19时作者 GiantPandaCV

lgorithm-in-cuda/tree/master/cuda-mode 。主要是LLM和cud

2025年3月23日14时作者 GiantPandaCV

8350
1 前言
Attention的计算过程中，需要之前的k和v。
但每次计算的时候，把之前的k