GiantPandaCV，作者每时AI

万字长文图解Qwen2.5-VL实现细节

2025年6月27日14时作者 GiantPandaCV

这篇文章分享了qwenVL的源码和相关内容，涵盖了window attention、动态帧率采样和多模态ROPE等技术，并强调了复杂数据预处理的重要性。

【博客转载】CUDA Vectorized Memory Access （文末送书）

2025年6月26日14时作者 GiantPandaCV

-Memory-Access/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Ma

【博客转载】CUDA Constant Memory

2025年6月22日14时作者 GiantPandaCV

emory/ ，来自Lei Mao，已获得作者转载授权。
后续会转载一些Lei Mao的CUDA相关

图解Vllm V1系列6：KVCacheManager与PrefixCaching

2025年6月19日14时作者 GiantPandaCV

m官方blog提供的一个简明流程示意图：
配合上篇文章的讲解，我们知道：
在vllm v0（版本是0

【博客转载】Row-Major VS Column-Major

2025年6月17日19时作者 GiantPandaCV

lumn-Major/ ，来自Lei Mao，已获得作者转载授权。
Row-Major VS Col

【博客转载】CUDA Kernel Execution Overlap

2025年6月13日19时作者 GiantPandaCV

CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值，可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题，并可通过启用per-thread default Stream来解决。