标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 开源
来自华为、港大、KAUST和马普所的研究者提出了一种新的稀疏注意力机制——SepLLM,它通过根据原生语义动态划分token数量来显著减少KV缓存使用量,并在免训练、预训练和后训练场景下实现了50%以上的KV缓存减少。
来自华为、港大、KAUST和马普所的研究者提出了一种新的稀疏注意力机制——SepLLM,它通过根据原生语义动态划分token数量来显著减少KV缓存使用量,并在免训练、预训练和后训练场景下实现了50%以上的KV缓存减少。
OmniParser V2 是通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析,并在 ScreenSpot Pro 基准测试中取得了 39.6 的 SOTA 准确率。
,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightV
DeepSeek发布免费开源模型DeepSeek-R1,性能媲美OpenAI o1。通过Kaggle平台进行微调训练,使AI更懂特定任务需求。
本期文章介绍了如何在Windows系统上安装并运行MCP (Model Context Protocol) 服务,并提供了详细的步骤说明和优化方法。通过使用Cursor Agent和配置文件等形式简化了MCP的设置过程。
HealthGPT是浙江大学、电子科技大学和阿里巴巴等联合开发的医学视觉语言模型,它通过异构低秩适应、分层问答和多模态融合技术,在医学图像分析、文本理解生成、教育研究及智能健康管理方面表现出色。