跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GiantPandaCV

在 SGLang 中实现 Flash Attention 后端 – 基础和 KV 缓存

2025年4月30日19时 作者 GiantPandaCV

basic ,由 GiantPandaLLM 翻译和Repost。作者是来自Linkedin的 Bi

分类 学术 标签 Cache-Oriented Design、 Exact Attention、 FlashAttention、 IO-Awareness、 KV Cache、 LRU 发表评论

Qwen3 一手实测! 附示例,涉及推理、创作、数学和代码、表现惊艳!

2025年4月29日14时 作者 GiantPandaCV

!
应该也没人反对吧。
Qwen3这波开的时机,真是恰到好处,五一都别休假了,加班跑模型吧。
我在上

分类 学术 标签 HTML、 Mermaid.js、 Qwen3、 复杂代码生成、 思维导图、 用户体验 发表评论

图解Vllm V1系列1:整体流程

2025年4月28日14时 作者 GiantPandaCV

介绍它们。
在本文开始前,
插一个题外话,简单解释下今年我很久不更新的原因
:我在xhs等平台上,大

分类 学术 标签 KV Cache、 TLS加密、 vLLM、 优先级队列、 分布式集群、 负载均衡 发表评论

【博客翻译】CUDA中的索引

2025年4月25日14时 作者 GiantPandaCV

在本文中,作者解释了CUDA中矩阵行优先格式的含义,并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。

分类 学术 标签 CUDA、 M, N、 Tiling结构、 共享内存、 函数f(i,j)、 矩阵乘法 发表评论

一起聊聊Nvidia Hopper新特性之Pipeline

2025年4月21日14时 作者 GiantPandaCV

utlass-tutorial-design-of-a-gemm-kernel/
前言
大家好,我是

分类 学术 标签 CUDA、 FlashAttention-3、 GEMM内核、 多阶段流水线、 数据流水线技术、 线程束专门化 发表评论

一起聊聊Nvidia Hopper新特性之计算切分

2025年4月21日14时 作者 GiantPandaCV

lass-tutorial-persistent-kernels-and-stream-k/
前言

分类 学术 标签 CuTe调度器、 CUTLASS调度器、 GEMM波量化、 Hopper架构、 定制化调整策略、 自动调度器生成 发表评论

一起聊聊Nvidia Hopper新特性之WGMMA

2025年4月18日14时 作者 GiantPandaCV

pper上的新特性之TMA
,这次我们来一起看看Hopper上的新矩阵乘法操作WGMMA。
引子
如

分类 学术 标签 Hopper架构、 TMA、 WGMMA、 同步机制、 张量内存访问、 矩阵乘法 发表评论

一起聊聊Nvidia Hopper 新特性之TMA

2025年4月18日14时 作者 GiantPandaCV

utorial-hopper-tma/
之前解读过两期LMDeploy Turbomind里的源码,

分类 学术 标签 CUDA、 CUTLASS、 GEMM、 Hopper架构、 PTX、 TiledMemoryAccess 发表评论

图解DeepSeek V3 biased_grouped_topk cuda融合算子fused_moe_gate kernel

2025年4月14日19时 作者 GiantPandaCV

thub.com/sgl-project/sglang/blob/main/python/sglan

分类 学术 标签 biased_grouped_topk、 CUDA代码、 DeepSeek V3、 专家选择、 大规模数据、 高效执行 发表评论

Tensor-007 Cute Layout简介

2025年4月12日19时 作者 GiantPandaCV

阵分块计算/解决访问内存的Bank Conflict以及算子融合的过程涉及大量的内存访问地址映射转换

分类 学术 标签 CuTe Layout、 flatten操作、 Group操作、 layout函数、 select函数、 take函数 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面4 页面5 页面6 … 页面11 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • DeepMind率先拿下IMO金牌,却被OpenAI 抢先发布了……
  • 从 n8n 到 Claude Code:我试了 10 类爆火 AI 工具,发现不用融资也能干正事
  • 大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 ICML’25
  • Kimi又火了,深度体验它的第一个Agent 后,我发现99%的AI产品忽略了这件「小事」
  • 谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×