GiantPandaCV，作者每时AI

基于CUTLASS CuTe分析cp.async的Prefetch行为

2025年8月5日14时作者 GiantPandaCV

86160866
编辑丨GiantPandaLLM
前言
在之前的文章
(
https://zhua

2025年7月27日14时作者 GiantPandaCV

有公共前缀，则这部分前缀可以复用已经计算好的KV Cache，否则需要重新计算。尤其处理长文本（如

2025年7月25日14时作者 GiantPandaCV

LLM）推理架构中，评估了在服务等级目标（SLOs）约束下（即 TTFT < 2s，ITL < 50

2025年7月24日14时作者 GiantPandaCV

显存消耗。在阅读本文前，推荐大家先阅读这篇blog：https://huggingface.co/b

2025年7月23日14时作者 GiantPandaCV

104610
编辑丨GiantPandaLLM
总述
最近阅读了
@kaitoukito
大佬的文章

2025年7月21日19时作者 GiantPandaCV

cutlass-tutorial-sub-byte-gemm-on-nvidia-blackwell

2025年7月19日14时作者 GiantPandaCV

LLM的优化kernel无缝集成到自己的生态系统中，而不用把超大的TensorRT-LLM源码放进来

2025年7月18日14时作者 GiantPandaCV

本文探讨了如何为新的共享内存逻辑Layout选择Swizzle模板参数B、M和S。通过简化分析，确定了M、S与PTX指令和GPU共享内存多Bank结构之间的关系，并基于实例推导出合适的B值，以避免Bank Conflict。

2025年7月16日19时作者 GiantPandaCV

om/p/27181462601）中提到的TBO作用在Prefill阶段时，我们可以从它的调度图上

2025年7月15日14时作者 GiantPandaCV

818267
编辑丨GiantPandaLLM
Prologue
近期花了一些时间学习CUTLASS