DeepSeek首日开源FlashMLA,H800的推理性能提升2-3倍!
首个开源代码库FlashMLA针对英伟达Hopper架构GPU优化,支持BF16数据类型和分页KV缓存,提供高性能计算与内存吞吐,在内存限制配置下推理性能提升2-3倍,计算限制配置下提升约2倍。
首个开源代码库FlashMLA针对英伟达Hopper架构GPU优化,支持BF16数据类型和分页KV缓存,提供高性能计算与内存吞吐,在内存限制配置下推理性能提升2-3倍,计算限制配置下提升约2倍。
研究人员提出MHA2MLA方法,通过微调预训练模型减少KV缓存大小90%,保持甚至提升性能。该技术利用低秩联合压缩键值技术和分组查询注意力策略,降低推理成本的同时维持精度。
马斯克的xAI在亚特兰大秘密建立数据中心,配备约12,448个英伟达GPU,以支持AI计算。该设施规模可观,并与孟菲斯的数据中心形成互补。
今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。
蚂蚁联合实验室提出了一种名为K-ON的方法,利用多词元并行预测机制使大语言模型能够感知知识图谱知识。该方法通过实体层级的对比学习实现了高效的知识图谱补全任务,并在多个数据集上取得了优于现有方法的结果。
百度回归 ‘百度一下 你就知道’ 概念,结合AI技术提升了搜索结果的个性化和多模态内容。升级后的百度APP不仅提供了更精准的答案,还整合了语音、绘图等功能,并接入了DeepSeek-R1模型。这些变化反映了百度在向“内容化”转变的同时也在提升用户服务体验。