HopperGPU

DeepSeek开源周Day 3：DeepGEMM——300行代码性能飙升2.7倍，比英伟达更懂如何优化英伟达？

2025年2月26日14时作者硅星GenAI

DeepSeek开源的DeepGEMM库在Hopper GPU上实现FP8 GEMM，最高可达1350+ FP8 TFLOPS。它仅约300行代码，设计简洁，性能表现与专家调优的复杂库相当甚至更好，在各种矩阵形状和模型类型上均保持优势。

2025年2月25日19时作者 PaperAgent

DeepSeek开源了FlashMLA，这是一个为Hopper GPU开发的高效MLA解码内核，已投入生产使用，支持BF16和分页KV缓存（块大小64），在H800上可实现高达580 TFLOPS的计算性能。

2025年2月24日14时作者 Datawhale

DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA，主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星，并且得到了广泛好评。

2025年2月24日12时作者新智元

DeepSeek发布FlashMLA开源库，支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化，显著提高推理速度和性能。