跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GiantPandaCV

sglang 源码学习笔记(二)- backend & forward 过程

2025年5月19日14时 作者 GiantPandaCV

5771025
编辑丨GiantPandaLLM
前言
书接上回,Bruce 仗剑走天涯:sglan

分类 学术 标签 Capture/Replay、 CUDA Graphs runner、 cudaGraphMemoryPool、 前向传递过程、 动态恢复图、 隐藏状态 发表评论

通过查看GPU Assembly分析CUDA程序

2025年5月16日14时 作者 GiantPandaCV

本文讨论了通过分析GPU Assembly来优化CUDA程序性能的方法,特别是向量化版本可以减少指令数量并提高效率。

分类 学术 标签 CUDA程序、 GPU Assembly、 Nsight Compute、 内存受限、 向量化版本、 性能提升 发表评论

单机H200最快DeepSeek V3和R1推理系统优化秘籍

2025年5月15日19时 作者 GiantPandaCV

optim-algorithm-in-cuda/blob/master/large-language

分类 学术 标签 CUDA Stream重叠操作、 DeepSeek V3/R1、 FP8量化、 SGLang、 Triton、 层间复用 发表评论

SGLang 源码学习笔记:Cache、Req与Scheduler

2025年5月14日19时 作者 GiantPandaCV

41
前言
笔者一直想找个开源的推理引擎框架学习一下源代码,机缘巧合认识了 sglang 社区的朋友

分类 学术 标签 CacheUnfinishedReq、 MatchPrefix、 ReqToTokenPool、 SGLang、 TokenToKVPool、 缓存机制 发表评论

在SGLang中使用reasoning模型

2025年5月13日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/how-to-u

分类 学术 标签 SGLang、 Slack、 基准测试、 开源代码库、 技术解析、 文档 发表评论

【CUDA 优化】让RMSNorm变得更快

2025年5月10日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/making-r

分类 学术 标签 Reduction机制、 RMSNorm操作kernel、 共享内存优化、 循环优化、 数据对齐、 硬件特性利用 发表评论

图解Vllm V1系列3:KV Cache初始化

2025年5月9日14时 作者 GiantPandaCV

he的初始化。
在Vllm V1系列2中,我们以MultiprocExecutor为例(这种类型的E

分类 学术 标签 Executor、 KV Cache、 ProfileRequest、 RPC、 Workers、 有效内存 发表评论

SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek

2025年5月6日19时 作者 GiantPandaCV

25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型

分类 学术 标签 DeepEP、 DeepGEMM、 SGLang、 张量并行、 数据并行、 混合模型集成 发表评论

【博客翻译】让前缀和变得更快

2025年5月6日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/making-p

分类 学术 标签 SIMD扩展、 内存管理优化、 块扫描、 性能分析、 示例代码、 线程粗化 发表评论

图解Vllm V1系列2:Executor-Workers架构

2025年5月2日14时 作者 GiantPandaCV

batching / online serving 这两种场景下的整体运作流程,以offline

分类 学术 标签 Executor、 Shm、 ShmRingBuffer、 Worker、 ZmqSocket、 数据传输 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面3 页面4 页面5 … 页面11 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 造梦师手记,群山深处的巨人:Colossus Project
  • 大模型训练的不稳定性有望彻底解决,MIT新研究用谱正则化替代层归一化
  • 秒杀传统机型50倍!东京大学研发 “攀爬高手”,突破四足机器人地形瓶颈!
  • 近亿元B轮融资!这家六维力传感器企业连续三年收入翻倍!产品市占率达70%
  • 12306购票查询 MCP 服务

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×