GEMM 归档 - 每时AI

训练性能显著提升，字节跳动郑思泽详解 Triton-distributed 框架，实现大模型高效分布式通信与计算融合

2025年7月21日12时作者 HyperAI超神经

ted：原生 Python 编程实现高性能通信」主题演讲中，来自字节跳动的 Seed Researc

【博客转载】CUDA Matrix Multiplication Optimization

2025年6月27日19时作者 GiantPandaCV

Multiplication-Optimization/ ，来自Lei Mao，已获得作者转载授权。

一起聊聊Nvidia Hopper 新特性之TMA

2025年4月18日14时作者 GiantPandaCV

utorial-hopper-tma/
之前解读过两期LMDeploy Turbomind里的源码，

PyTorch博客《使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介》

2025年1月20日14时作者 GiantPandaCV

博客来源：https://pytorch.org/blog/accelerating-gemms-t