分享归档 - 第283页共398页

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

2025年2月19日14时作者硬AI

DeepSeek发布原生稀疏注意力（NSA）机制，在大语言模型处理64k长文本的速度上最高提升11.6倍，并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈，有望显著提升未来基座模型的能力。

2025年2月19日14时作者 AI进修生

OpenAI发布SWE-Lancer测试基准，评估AI代码能力。该基准基于真实项目任务，涵盖软件工程全栈开发和管理任务，价值100万美元。Claude 3.5 Sonnet表现最佳，但远不及人类开发者水平。

2025年2月19日14时作者硬AI

苹果研究人员发现，多次‘蒸馏’更具优势。当教师模型性能比大小更重要时，选择与学生模型相近大小的教师模型可优化学习效果。这一研究成果有望为业界提供更高效、低成本的小模型训练方案。

2025年2月19日14时作者硬AI

百度Q4财报显示，总营收1331亿元，同比增长-1%，归属百度核心的净利润234亿元，同比增长21%。智能云营收增长26%。李彦宏表示AI转型成效初现，自动驾驶出行服务进展良好。大摩称担忧百度搜索业务面临干扰和变现风险。

2025年2月19日14时作者 AI音频时代

性的工具。然而，当焦点完全集中在AI上时，我们可能会忽视当今创意工作者面临的更深刻且隐蔽的挑战：注意

2025年2月19日14时作者子非AI

埃隆·马斯克旗下xAI公司发布Grok 3大模型，性能超越GPT-4。该模型依托20万块H100 GPU数据中心构建，具备DeepSearch信息检索功能、太空轨道计算系统及AI自主开发游戏等能力，引发市场轰动。

2025年2月19日14时作者子非AI

一举突破
Transformer 注意力机制瓶颈！
梁文峰团队领衔研发
的 NSA 采用
原生稀疏

2025年2月19日14时作者 PaperAgent

DeepSeek官推发布NSA技术成果，一种面向硬件且支持原生训练的稀疏注意力机制，显著提升了长上下文训练与推理速度和成本。

2025年2月19日14时作者 PaperAgent

X-R1更新日志包括支持LoRA训练、发布中文训练配置及模型，成功进行大规模强化学习训练，增加标准实验脚本，支持3B模型的中文推理，并在Ascend 910B上运行成功。

2025年2月19日14时作者 Datawhale

le的朋友们，上海见。
Datawhale联合英特尔、魔搭社区在
GDC全球开发者先锋大会
办了一个

较早文章

较新文章