跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

CUTLASS

【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快

2025年5月23日19时 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/tma-intr

分类 学术 标签 CUDF、 CUTLASS、 Hopper、 Swizzle、 矩阵转置、 高效实现 发表评论

一起聊聊Nvidia Hopper 新特性之TMA

2025年4月18日14时 作者 GiantPandaCV

utorial-hopper-tma/
之前解读过两期LMDeploy Turbomind里的源码,

分类 学术 标签 CUDA、 CUTLASS、 GEMM、 Hopper架构、 PTX、 TiledMemoryAccess 发表评论

Tensor-006 AI软硬件交互界面: 可组合的Kernel

2025年4月12日19时 作者 GiantPandaCV

on讲的挺好的
《A Generalized Micro-kernel Abstraction fo

分类 学术 标签 CuTe Layout Algebra、 CUTLASS、 TileCopy、 TiledMMA、 兼容性和可移植性、 灵活性与可组合性 发表评论

Tensor-003 TensorCore架构

2025年4月12日19时 作者 GiantPandaCV

l架构被虐成狗了. 而Volta这一代的架构规划是在2013年, 应该有可能是在2015年附近得到了

分类 学术 标签 CUTLASS、 Sm80、 TensorCore、 深度学习模型、 矩阵乘法、 高性能计算库 发表评论

Tensor-005 CUTLASS简介

2025年4月12日19时 作者 GiantPandaCV

re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然

分类 学术 标签 CUDA、 CUTLASS、 任务初始化、 执行时间、 矩阵乘法、 随机数据填充 发表评论

simplegemm:从零开始实现高性能矩阵乘法的CUDA项目

2025年3月22日8时 作者 NLP工程化

手写CUDA代码实现高性能矩阵乘法的simplegemm项目介绍及其优化过程

分类 开源 标签 bertmaher、 CUDA、 CUTLASS、 Pingpong GEMM、 simplegemm、 优化 发表评论

一文详解:DeepSeek 第三天开源的 DeepGEMM

2025年2月26日14时 作者 赛博禅心

pper 架构 GPU 优化的矩阵乘法库 — DeepGEMM
。这一库支持标准矩阵计算和混合专家模

分类 分享 标签 CUDA、 CUTLASS、 DeepSeek、 Hopper架构、 PyTorch、 非标准块大小 发表评论

DeepSeek开源周[1]:FlashMLA,Hopper GPU推理性能狂飙

2025年2月26日14时 作者 子非AI

DeepSeek AI 团队发布了 FlashMLA,针对 Hopper GPU 优化的 MLA 解码内核,支持 BF16 和分页 KV 缓存,实现高达 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。

分类 分享 标签 BF16、 CUTLASS、 DeepSeek AI、 FlashMLA、 Hopper GPU、 分页 KV 缓存 发表评论

DeepSeek-V3 FP8量化浅析

2025年2月6日19时 作者 GiantPandaCV

水塔花桥·琉森 摄于2024.4.30
DeepSeek-V3 横空出世,训练和推理成本极低,一个重

分类 学术 标签 block、 CuTe、 CUTLASS、 EVT、 FP8、 量化 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 竞逐赶超DeepSeek!月之暗面和MiniMax双双发布新模型,争锋开源SOTA
  • 30秒安装”完全开源”氛围编程工具,在浏览器里点哪里改哪里,AI编程无门槛更高效。
  • OpenAI赢得美国防部2亿美元合同
  • 张江纪录|清华团队人形机器人29秒零失误完成零部件上下料!
  • 从90%依赖进口到市场半壁江山,一颗“关节”如何撬动国产机器人崛起?

2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×