跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GiantPandaCV

CUTLASS CuTe GEMM细节分析(二)——TiledCopy与cp.async

2025年7月14日14时 作者 GiantPandaCV

560147
编辑丨GiantPandaLLM
Prologue
在上一篇文章
(
https://

分类 学术 标签 128bit向量化、 L2缓存带宽、 Src/Dst Tensor Layout、 TiledCopy、 列级拷贝、 行级拷贝 发表评论

关于Pingpong和Cooperative的一些感性理解

2025年7月11日14时 作者 GiantPandaCV

2067252909434076
编辑丨GiantPandaLLM
背景
最近,我和几位小伙伴
@a

分类 学术 标签 Cooperative调度策略、 Pingpong调度策略、 典型数字、 数据独立性、 有序序列屏障、 深度学习模型 发表评论

【博客转载】使用CUDA driver API在运行时加载CUDA kernel (文末送书)

2025年7月8日14时 作者 GiantPandaCV

time-Load-Run-Kernel/ ,来自Lei Mao,已获得作者转载授权。后续会转载一些

分类 学术 标签 CUDA、 cudart、 g++、 ptx_cubin_fatbin_sm86、 run_vector_add_sm86 发表评论

【博客转载】CUDA Local Memory

2025年7月7日14时 作者 GiantPandaCV

ry/ ,来自Lei Mao,已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog

分类 学术 标签 Ampere架构、 CUTLASS、 MMA操作、 Sm80、 TensorCore、 半精度浮点数 发表评论

从 0 手撕 LLM 分布式训练:DP, ZeRO, TP, PP, CP, EP

2025年7月7日14时 作者 GiantPandaCV

小冬瓜AIGC发布的X-R1开源框架课程,手撕PyTorch的五大并行算法DP、TP、PP、CP、EP,并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具,适合对LLM技术有兴趣的学员。

分类 学术 标签 DP、 EP、 MoE、 PyTorch、 TP、 分布式训练 发表评论

图解Vllm V1系列7:使用AsyncLLM做异步推理

2025年7月4日14时 作者 GiantPandaCV

文章介绍了如何使用vllm进行最小程度的异步二次开发,重点讲解了AsyncLLM的工作原理和如何通过生成异步协程来提高单条请求处理效率。

分类 学术 标签 3个tasks、 AsyncLLM、 Event Loop、 FastAPI、 vLLM、 异步io.task 发表评论

【博客转载】CUDA Cooperative Groups

2025年6月30日14时 作者 GiantPandaCV

/ ,来自Lei Mao,已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog,也

分类 学术 标签 batched reduction、 cooperative groups、 CUDA、 归约求和性能、 批量归约求和、 负载平衡 发表评论

【博客转载】CUDA Reduction

2025年6月29日14时 作者 GiantPandaCV

,来自Lei Mao,已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog,也是

分类 学术 标签 CUDA、 fadd函数、 sm_75架构、 归约求和、 批量执行、 逐线程同步 发表评论

【博客转载】CUDA Shared Memory Swizzling

2025年6月28日14时 作者 GiantPandaCV

ory-Swizzling/ ,来自Lei Mao,已获得作者转载授权。后续会转载一些Lei Mao

分类 学术 标签 RTX 3090、 Swizzling、 填充、 实际应用、 矩阵形状、 银行冲突 发表评论

【博客转载】CUDA Matrix Multiplication Optimization

2025年6月27日19时 作者 GiantPandaCV

Multiplication-Optimization/ ,来自Lei Mao,已获得作者转载授权。

分类 学术 标签 CUDA、 GEMM、 Warp分块、 向量化内存访问 发表评论
较早文章
较新文章
← 上一页 页面1 页面2 页面3 … 页面11 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×