2025年2月18日23时 - 第3页共13页

DeepSeek革命性NSA注意力机制问世！梁文锋上阵，长文本推理能力飙升

2025年2月18日23时作者新智元

人亲自率队，提出了革命性注意力机制NSA，在通用、长文本、思维链推理基准测试中，刷新SOTA碾压全注

2025年2月18日23时作者甲子光年

t X.
— I’m Jimmy, leading research.
— I’m Tony, wo

2025年2月18日23时作者智东西

西安交通大学推出基于DeepSeek的‘交小智’平台，支持创建多种智能体，包括科研助手、教学辅助等，并提供低代码和API对接服务。

2025年2月18日23时作者量子位

百度搜索正式全量接入DeepSeek-R1满血版，实现用户与AI深度融合。通过百度APP直接搜索“AI+”，即可访问新功能。实测显示，百度搜索的DeepSeek-R1能准确回答各种问题，包括文化背景分析、日常生活答疑等场景。

2025年2月18日23时作者智东西

阶跃星辰与吉利联合开源两款Step系列多模态大模型：全球参数量最大的文生视频大模型Step-Video-T2和语音交互模型Step-Audio。这两款模型已在跃问APP内开放体验，支持中英文提示，并公布了详细的报告和技术方案。

2025年2月18日23时作者新智元

腾讯旗下多款产品接入满血版DeepSeek R1，微信AI搜索等应用引爆热搜。腾讯股价大涨3000亿，百度也积极跟进相关技术。

2025年2月18日23时作者钛媒体AGI

月之暗面Kimi因DeepSeek热潮暂缓‘烧钱’投放。近期大模型六小虎中有五家公司减少或暂停广告投放。月之暗面对推广动作进行相应调整，并推出新模型Kimi Latest，聚焦长文本输入与上下文长度控制。

2025年2月18日23时作者机器之心

点赞、转发、评论三连。
据介绍，DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。

2025年2月18日23时作者 AI寒武纪

DeepSeek发布原生稀疏注意力（NSA）技术，旨在提升大语言模型处理长文本的能力和效率。NSA通过动态分层稀疏策略结合粗粒度的Token压缩和细粒度的选择优化，实现了高效长文本建模，实验结果显示NSA在多个任务中超越了Full Attention模型，并显著提升了计算速度。

2025年2月18日23时作者极市干货

本文介绍了一种简化DINO和DINOv2训练流程的方法，通过编码率正则化提升模型性能。该方法提出SimDINO和SimDINOv2模型，减少了复杂的调整步骤和超参数设置，实验结果表明新模型在多种下游任务中性能优于原版模型，并且对不同设计选择表现出更强的鲁棒性。