2025年8月5日23时 - 第5页共10页 - 每时AI

Attention总跑偏？人大×清华联合提出LeaF：剪掉干扰Token，让模型学会主动聚焦

2025年8月5日23时作者 PaperWeekly

因果关键特征，从而提升推理准确性与泛化能力。
论文标题：
Learning to Focus: Ca

尝试终结Attention Sink起因的讨论

2025年8月5日23时作者极市干货

文章提出Transformer中的Attention Sink现象源于模型需要Context Aware的Identity Layer，即注意力块需在某些情况下保持恒等变换。该假设通过首个token的value接近0、深层解码更明显、非归一化注意力和门控机制消除sink等多个实验证据支持，并解释了这一现象的原因。

大模型大逃杀：一山不容「六小虎」

2025年8月5日19时作者智能涌现

周鑫雨
编辑
｜
苏建勋杨轩
沉寂了长达半年之后，“AI六小虎”中有4家，用接连发布的新模型，又

超火的跨次元互动视频！1张图让小八跳进我的杯子里

2025年8月5日19时作者 AI新榜

ct’;

function _arrayLikeToArray$2(arr, len) {

一个模型超了DeepSeekR1、V3，参数671B，成本不到350万美元

2025年8月5日19时作者机器学习算法与自然语言处理

MLNLP 社区致力于促进自然语言处理的研究与发展。Deep Cogito 提供了开源模型，通过迭代蒸馏与增强技术改进模型性能。Cogito v2 模型展示了强大的推理能力，并已在多个基准测试中优于多数开源模型。

AI风口吸金持续，但投资人开始算账了

2025年8月5日16时作者财联社AI daily

AI硬件和软件端的投资人越来越多地关注成本问题。一些投资人表示，场景智能已经成为了投资的重要指标，如任务完成率和成本公式。在具身智能领域，项目方开始展示产品的任务完成率、稳定性，并提供ROI量化模型。投资人也越来越重视商业落地验证，而非单纯的技术竞赛。

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

2025年8月5日16时作者新智元

心使能技术之一。为支撑其在复杂三维环境下的部署需求，西安电子科技大学、香港中文大学（深圳）和加拿大滑