CUDA 12.6 归档 - 每时AI

FlashMLA，这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核

2025年2月26日8时作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

2025年2月24日12时作者智东西

DeepSeek本周开源首个代码库FlashMLA，针对Hopper GPU优化的高效MLA解码内核已投入生产，性能指标达到3000 GB/s内存带宽和580 TFLOPS计算性能。发布一小时GitHub Star数冲上1700。