GiantPandaCV，作者每时AI

在SGLang中使用reasoning模型

2025年5月13日14时作者 GiantPandaCV

表到本公众号。原始地址为：https://veitner.bearblog.dev/how-to-u

2025年5月10日14时作者 GiantPandaCV

表到本公众号。原始地址为：https://veitner.bearblog.dev/making-r

2025年5月9日14时作者 GiantPandaCV

he的初始化。
在Vllm V1系列2中，我们以MultiprocExecutor为例（这种类型的E

2025年5月6日19时作者 GiantPandaCV

25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型

2025年5月6日14时作者 GiantPandaCV

表到本公众号。原始地址为：https://veitner.bearblog.dev/making-p

2025年5月2日14时作者 GiantPandaCV

batching / online serving 这两种场景下的整体运作流程，以offline

2025年4月30日19时作者 GiantPandaCV

basic ，由 GiantPandaLLM 翻译和Repost。作者是来自Linkedin的 Bi

2025年4月29日14时作者 GiantPandaCV

！
应该也没人反对吧。
Qwen3这波开的时机，真是恰到好处，五一都别休假了，加班跑模型吧。
我在上

2025年4月28日14时作者 GiantPandaCV

介绍它们。
在本文开始前，
插一个题外话，简单解释下今年我很久不更新的原因
：我在xhs等平台上，大

2025年4月25日14时作者 GiantPandaCV

在本文中，作者解释了CUDA中矩阵行优先格式的含义，并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。