AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%

给 AI 一场压力测试,结果显示顶级模型在多任务并行推理场景下表现大幅缩水。研究团队设计的 REST 框架在一个 prompt 中同时抛出多个问题,揭示了大模型在实际应用中的不足之处,并提出新的评测方法来提升评估效果。

95后人大博士,拿到海外顶尖高校教职

新一代青年学者王涵之在博士毕业后迅速获得海外顶尖大学教职,她在图灵领域顶级会议STOC发表研究成果并获2024年CCF优博奖项。她分享了导师魏哲巍教授的启发式方法和God-intended算法设计理念。

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

本文介绍了一项研究,发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试,表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。

ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频!

蚂蚁集团和中国人民大学联合推出的ViLAMP模型通过混合精度策略和差分蒸馏技术实现高效处理长视频,显著降低计算成本和提高处理效率,在多个视频理解基准测试中表现优异。

ICML 2025 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

蚂蚁和中国人民大学的研究团队提出ViLAMP模型,实现对超长视频的高效处理。ViLAMP通过混合精度策略,在关键帧上保持高精度分析,大幅提升了视频理解效率,并在多个基准测试中超越现有方案。