梁文锋归档 - 第2页共3页

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

2025年2月26日12时作者机器之心

DeepSeek 推出开源项目 DeepGEMM，是一款支持密集型和专家混合（MoE）的 FP8 GEMM 库，在 Hopper GPU 上可实现 1350+ FP8 TFLOPS 的计算性能。

DeepSeek创始人梁文锋亲自署名的论文长啥样？

2025年2月22日14时作者 AI信息Gap

最近，DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA（Natively Sparse Attention）通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择，显著提升了长文本处理速度，并在多个任务中超越了传统注意力模型。

梁文锋、杨植麟同一天发论文“秀肌肉”，主题居然撞上了！下一代模型要来了？

2025年2月20日16时作者 AI前线

布了各自最新的研究成果，巧合的是，两篇论文的主题高度一致——都聚焦于改进 Transformer 架

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

2025年2月19日12时作者机器之心

OpenAI 推出并开源 SWE-Lancer 基准测试，用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务，总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务，仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。