DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
DeepSeek 推出开源项目 DeepGEMM,是一款支持密集型和专家混合(MoE)的 FP8 GEMM 库,在 Hopper GPU 上可实现 1350+ FP8 TFLOPS 的计算性能。
DeepSeek 推出开源项目 DeepGEMM,是一款支持密集型和专家混合(MoE)的 FP8 GEMM 库,在 Hopper GPU 上可实现 1350+ FP8 TFLOPS 的计算性能。
最近,DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA(Natively Sparse Attention)通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择,显著提升了长文本处理速度,并在多个任务中超越了传统注意力模型。
OpenAI 推出并开源 SWE-Lancer 基准测试,用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务,总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务,仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。
浙江大学发布深度融合智能体‘浙大先生’,依托‘西湖之光’算力联盟提供1000PFLOPS本地算力和数千P云端算力支持,面向全国829所CARSI联盟高校免费开放使用,涵盖教学、科研、生活等全场景。
DeepSeek发布原生稀疏注意力(NSA)技术,旨在提升大语言模型处理长文本的能力和效率。NSA通过动态分层稀疏策略结合粗粒度的Token压缩和细粒度的选择优化,实现了高效长文本建模,实验结果显示NSA在多个任务中超越了Full Attention模型,并显著提升了计算速度。
论文提出原生稀疏注意力(NSA)技术,有望大幅提升大语言模型处理长文本的能力和效率。NSA结合动态分层稀疏策略与硬件优化,显著提升计算速度并在训练中支持端到端训练。实验表明使用NSA预训练的模型在多个任务上性能超越Full Attention模型,并且在64k长度序列下实现显著加速。
在没有任何广告投放情况下,DeepSeek实现7天用户增长超1亿,其流量增长远超其他国产AI应用,并吸引了大量移动互联网的流量,这表明移动互联网的竞争逻辑不适用于AI产品。