DeepSeek开源周Day1,硬核发布…
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA,主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星,并且得到了广泛好评。
DeepSeek开源FlashMLA第一天,H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。
DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。
专注AIGC领域的专业社区分享了DeepSeek开源的FlashMLA内核,该内核针对Hopper GPU进行了优化,实现了3000 GB/s内存带宽和580 TFLOPS计算性能,支持BF16并采用分页KV缓存技术。