梁文锋
Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
OpenAI 推出并开源 SWE-Lancer 基准测试,用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务,总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务,仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。
浙大满血版DeepSeek上线!能联网搜索
浙江大学发布深度融合智能体‘浙大先生’,依托‘西湖之光’算力联盟提供1000PFLOPS本地算力和数千P云端算力支持,面向全国829所CARSI联盟高校免费开放使用,涵盖教学、科研、生活等全场景。
太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI
DeepSeek发布原生稀疏注意力(NSA)技术,旨在提升大语言模型处理长文本的能力和效率。NSA通过动态分层稀疏策略结合粗粒度的Token压缩和细粒度的选择优化,实现了高效长文本建模,实验结果显示NSA在多个任务中超越了Full Attention模型,并显著提升了计算速度。
刚刚,DeepSeek放出重磅论文!梁文锋亲自参与!
论文提出原生稀疏注意力(NSA)技术,有望大幅提升大语言模型处理长文本的能力和效率。NSA结合动态分层稀疏策略与硬件优化,显著提升计算速度并在训练中支持端到端训练。实验表明使用NSA预训练的模型在多个任务上性能超越Full Attention模型,并且在64k长度序列下实现显著加速。
AI产品的流量逻辑,被Deepseek证伪了
在没有任何广告投放情况下,DeepSeek实现7天用户增长超1亿,其流量增长远超其他国产AI应用,并吸引了大量移动互联网的流量,这表明移动互联网的竞争逻辑不适用于AI产品。
DeepSeek站在巨人肩上,这个巨人到底是什么?
春节期间,国产大模型DeepSeek引发热议并登顶全球应用商店排行榜。其训练成本远低于国际水平,甚至可能追赶世界先进水平。AI领域的大规模开源促进了快速发展,Meta等巨头加码开源策略,强化了OpenAl的竞争格局。