2 月 2025 - 第32页共241页

DeepSeek开源第三弹：惊人的300行代码驱动R1和V3的训练与推理，超越各种专家内核

2025年2月26日12时作者 AI寒武纪

DeepSeek-AI 发布了 DeepGEMM 库，专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS，代码简洁至仅 300 行。该库支持稠密模型和混合专家模型，并通过多种技术实现高效优化，提供详细实测数据及安装指南。

2025年2月26日12时作者 AIGC开放社区

DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM，支持NVIDIA Hopper架构，在密集和分组矩阵乘法下性能提升显著，使用方便，支持广泛应用场景。

2025年2月26日12时作者机器之心

DeepSeek 推出开源项目 DeepGEMM，是一款支持密集型和专家混合（MoE）的 FP8 GEMM 库，在 Hopper GPU 上可实现 1350+ FP8 TFLOPS 的计算性能。

2025年2月26日8时作者 NLP工程化

本书介绍了多种优化方法及其在工程设计、数学和计算机科学等多个领域的应用，涵盖基础到高级的内容。

2025年2月26日8时作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。

2025年2月26日8时作者 NLP工程化

为2025年及以后的LLM技术应用提供循序渐进路线图，强调基础理论理解、效率提升和全局性考虑。

2025年2月26日8时作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

2025年2月26日8时作者 NLP工程化

Zotero-arxiv-workflow：为用户自动合并arXiv预印本和期刊发表版本，一键更新最新信息和PDF。

2025年2月26日8时作者 NLP工程化

HeadInfer 是一个内存高效的推理框架，专为大型语言模型设计，通过逐头卸载策略减少 GPU 内存消耗。

2025年2月26日8时作者 NLP工程化

GitHub 上的 Customize-arXiv-Daily 工具允许用户通过自定义提示词获取感兴趣的每日 arXiv 论文推荐，支持本地模型 Ollama 和 DeepSeek，并提供电子邮件摘要和推荐。