8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
作者熊璟介绍其研究工作,提出ParallelComp方法解决大语言模型在处理超长文本时存在的瓶颈问题。该方法包括并行注意力分块、KV缓存智能淘汰与注意力偏差校准三项创新技术,通过减少显存消耗和优化注意力分布,使得模型能高效处理128K长度以上的上下文,显著提升推理效率。
作者熊璟介绍其研究工作,提出ParallelComp方法解决大语言模型在处理超长文本时存在的瓶颈问题。该方法包括并行注意力分块、KV缓存智能淘汰与注意力偏差校准三项创新技术,通过减少显存消耗和优化注意力分布,使得模型能高效处理128K长度以上的上下文,显著提升推理效率。
RSS 2021 大会揭晓多个奖项,包括杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖和杰出论文奖。其中,FEAST 系统荣获杰出论文奖,展示了其在个性化家庭用餐辅助中的优势。
谷歌DeepMind发布首个适用于机器人直接部署的GeminiRoboticsOn-Device模型,无需互联网连接即可运行,展示出强大的通用灵活性和任务泛化能力。
华中科技大学联合金山办公推出文档解析模型MonkeyOCR,在处理包含公式和表格的复杂文档时表现出色,提升了15.0%和8.6%的性能。
tute 联合 UC 伯克利、斯坦福等高校的研究团队,推出了虚拟细胞模型 STATE,能够预测干细胞
多模态统一嵌入框架UNITE通过Modal-Aware Masked Contrastive Learning解决跨模态干扰,显著提升细粒度检索、指令检索等多个任务性能。
本文提出了一种名为ToMAP的新模型,它结合了心智理论机制以增强语言模型在说服任务中的表现。通过引入反驳预测器和态度预测器两大模块,ToMAP能够预判对方可能提出的反论点并评估其态度变化,从而实现更具个性化、灵活性和逻辑性的说服过程。