sglang 源码学习笔记(二)- backend & forward 过程 2025年5月19日14时 作者 GiantPandaCV 5771025 编辑丨GiantPandaLLM 前言 书接上回,Bruce 仗剑走天涯:sglan
通过查看GPU Assembly分析CUDA程序 2025年5月16日14时 作者 GiantPandaCV 本文讨论了通过分析GPU Assembly来优化CUDA程序性能的方法,特别是向量化版本可以减少指令数量并提高效率。
单机H200最快DeepSeek V3和R1推理系统优化秘籍 2025年5月15日19时 作者 GiantPandaCV optim-algorithm-in-cuda/blob/master/large-language
SGLang 源码学习笔记:Cache、Req与Scheduler 2025年5月14日19时 作者 GiantPandaCV 41 前言 笔者一直想找个开源的推理引擎框架学习一下源代码,机缘巧合认识了 sglang 社区的朋友
在SGLang中使用reasoning模型 2025年5月13日14时 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/how-to-u
【CUDA 优化】让RMSNorm变得更快 2025年5月10日14时 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/making-r
图解Vllm V1系列3:KV Cache初始化 2025年5月9日14时 作者 GiantPandaCV he的初始化。 在Vllm V1系列2中,我们以MultiprocExecutor为例(这种类型的E
SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek 2025年5月6日19时 作者 GiantPandaCV 25-05-05-large-scale-ep DeepSeek 是一个广受欢迎的开源大型语言模型
图解Vllm V1系列2:Executor-Workers架构 2025年5月2日14时 作者 GiantPandaCV batching / online serving 这两种场景下的整体运作流程,以offline