AI聊天应用支持DeepSeek等先进模型HiveChat,实用人体视频抠像框架MatAnyone,HealthGPT医学大模型

本期内容包括HiveChat、MatAnyone、HealthGPT、Minima和Local GRPO Training五个项目,涵盖了AI聊天应用、人体视频抠像框架、医疗大规模视觉语言模型、本地RAG容器以及GRPO策略训练工具。

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek提出NSA稀疏注意力机制,显著降低大模型训练成本。实验表明,在64k上下文时,NSA前向传播速度最高提升9倍,反向传播速度提升6倍,解码速度提升11.6倍。论文已在arXiv上发布,梁文锋等DeepSeek原班人马参与。

在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与

DeepSeek发布原生稀疏注意力(NSA)机制,在大语言模型处理64k长文本的速度上最高提升11.6倍,并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈,有望显著提升未来基座模型的能力。