训练性能显著提升,字节跳动郑思泽详解 Triton-distributed 框架,实现大模型高效分布式通信与计算融合 2025年7月21日12时 作者 HyperAI超神经 ted:原生 Python 编程实现高性能通信」主题演讲中,来自字节跳动的 Seed Researc
【博客转载】CUDA Matrix Multiplication Optimization 2025年6月27日19时 作者 GiantPandaCV Multiplication-Optimization/ ,来自Lei Mao,已获得作者转载授权。
一起聊聊Nvidia Hopper 新特性之TMA 2025年4月18日14时 作者 GiantPandaCV utorial-hopper-tma/ 之前解读过两期LMDeploy Turbomind里的源码,
PyTorch博客 《使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介》 2025年1月20日14时 作者 GiantPandaCV 博客来源:https://pytorch.org/blog/accelerating-gemms-t