注意力机制归档

杨植麟合写的技术报告来了！Kimi K2也是作者，还拿了24项开源SOTA

2025年7月22日23时作者智东西

月之暗面公布了其最新旗舰模型
Kimi K2的完整技术报告
。作为一款国产开源万亿参数大模型，Kim

2025年7月16日16时作者量子位

式）
思维链
（CoT）
的2700多倍
？
史上首篇潜空间推理综述，对这种新兴的推理范式进行了全面

2025年7月2日23时作者量子位

华为Omni-Infer项目开源，提供推理超大规模MoE的框架和加速套件。支持昇腾硬件平台的大模型推理，兼容主流开源框架，具有智能调度、负载平衡等功能。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月24日23时作者机器之心

「长思维链」等技术的兴起，带来了需要模型生成数万个 token 的全新工作负载。
大多数语言模型都基

2025年6月19日8时作者机器之心

LLM
仅出现不到十年，就已将曾经遥不可及的人工智能能力普及给大众，让全球数亿人能够通过自然语言进

2025年6月19日8时作者机器之心

清华大学陈键飞团队提出SageAttention3，实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现，并首次提出了可训练的8比特注意力用于大模型的训练加速。

2025年6月14日8时作者 NLP工程化

OpenAI联合创始人Ilya精选的AI论文清单包含30篇基础、优化和应用类论文，涵盖RNN/LSTM、CNN、Transformer等技术，内容涉及正则化、生成模型、对齐等多个领域。

2025年6月9日8时作者开源星探

微软开源GUI-Actor无坐标视觉定位工具，通过注意力机制直接识别目标区域，支持网页、桌面和移动端UI，性能媲美甚至超越传统方法。