跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GiantPandaCV

在SGLang中使用reasoning模型

2025年5月13日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/how-to-u

分类 学术 标签 SGLang、 Slack、 基准测试、 开源代码库、 技术解析、 文档 发表评论

【CUDA 优化】让RMSNorm变得更快

2025年5月10日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/making-r

分类 学术 标签 Reduction机制、 RMSNorm操作kernel、 共享内存优化、 循环优化、 数据对齐、 硬件特性利用 发表评论

图解Vllm V1系列3:KV Cache初始化

2025年5月9日14时 作者 GiantPandaCV

he的初始化。
在Vllm V1系列2中,我们以MultiprocExecutor为例(这种类型的E

分类 学术 标签 Executor、 KV Cache、 ProfileRequest、 RPC、 Workers、 有效内存 发表评论

SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek

2025年5月6日19时 作者 GiantPandaCV

25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型

分类 学术 标签 DeepEP、 DeepGEMM、 SGLang、 张量并行、 数据并行、 混合模型集成 发表评论

【博客翻译】让前缀和变得更快

2025年5月6日14时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/making-p

分类 学术 标签 SIMD扩展、 内存管理优化、 块扫描、 性能分析、 示例代码、 线程粗化 发表评论

图解Vllm V1系列2:Executor-Workers架构

2025年5月2日14时 作者 GiantPandaCV

batching / online serving 这两种场景下的整体运作流程,以offline

分类 学术 标签 Executor、 Shm、 ShmRingBuffer、 Worker、 ZmqSocket、 数据传输 发表评论

在 SGLang 中实现 Flash Attention 后端 – 基础和 KV 缓存

2025年4月30日19时 作者 GiantPandaCV

basic ,由 GiantPandaLLM 翻译和Repost。作者是来自Linkedin的 Bi

分类 学术 标签 Cache-Oriented Design、 Exact Attention、 FlashAttention、 IO-Awareness、 KV Cache、 LRU 发表评论

Qwen3 一手实测! 附示例,涉及推理、创作、数学和代码、表现惊艳!

2025年4月29日14时 作者 GiantPandaCV

!
应该也没人反对吧。
Qwen3这波开的时机,真是恰到好处,五一都别休假了,加班跑模型吧。
我在上

分类 学术 标签 HTML、 Mermaid.js、 Qwen3、 复杂代码生成、 思维导图、 用户体验 发表评论

图解Vllm V1系列1:整体流程

2025年4月28日14时 作者 GiantPandaCV

介绍它们。
在本文开始前,
插一个题外话,简单解释下今年我很久不更新的原因
:我在xhs等平台上,大

分类 学术 标签 KV Cache、 TLS加密、 vLLM、 优先级队列、 分布式集群、 负载均衡 发表评论

【博客翻译】CUDA中的索引

2025年4月25日14时 作者 GiantPandaCV

在本文中,作者解释了CUDA中矩阵行优先格式的含义,并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。

分类 学术 标签 CUDA、 M, N、 Tiling结构、 共享内存、 函数f(i,j)、 矩阵乘法 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面4 页面5 页面6 … 页面11 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 10 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 9 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×