CUDA 归档 - 每时AI

苹果向英伟达生态妥协了！MLX框架主动适配CUDA

2025年7月17日16时作者量子位

苹果为MLX框架增加对CUDA的支持，以利用英伟达GPU训练模型。此举标志着苹果正式向英伟达生态妥协，尽管此前因禁用部分MacBook的英伟达显卡而与英伟达产生过矛盾。

【CUDA编程】关于矩阵乘加操作的四个指令（ldmatrix、mma、stmatrix、movmatrix）详解

2025年7月11日16时作者极市干货

rix）详解
写在前面‌
：在 GPU Tensor Core 的编程实践中，笔者此前通过矩阵乘法优

【博客转载】使用CUDA driver API在运行时加载CUDA kernel (文末送书)

2025年7月8日14时作者 GiantPandaCV

time-Load-Run-Kernel/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些

【博客转载】CUDA Cooperative Groups

2025年6月30日14时作者 GiantPandaCV

/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog，也

【博客转载】CUDA Reduction

2025年6月29日14时作者 GiantPandaCV

，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog，也是

【博客转载】CUDA Matrix Multiplication Optimization

2025年6月27日19时作者 GiantPandaCV

Multiplication-Optimization/ ，来自Lei Mao，已获得作者转载授权。

【博客转载】CUDA Vectorized Memory Access （文末送书）

2025年6月26日14时作者 GiantPandaCV

-Memory-Access/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Ma

nx-cugraph：为NetworkX提供零代码更改的GPU加速后端

2025年6月16日8时作者 NLP工程化

nx-cugraph为NetworkX提供GPU加速后端，支持7.0+架构，兼容Python3.10以上，涵盖多种图算法

【博客转载】CUDA Kernel Execution Overlap

2025年6月13日19时作者 GiantPandaCV

CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值，可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题，并可通过启用per-thread default Stream来解决。

1万块GPU砸向欧洲！老黄怒怼AI末日论：全球首个工业AI云来了

2025年6月13日8时作者新智元

大航海时代已然启航，这不是一次产品发布会，而是未来的预言书。巴黎GTC大会，黄仁勋开讲了！这次他脱下

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31