大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。

突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人

阿里通义实验室高层薄列峰离职,加入某互联网大厂担任多模态模型部副总经理。此前,通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

上海交通大学等团队推出Video-XL-Pro模型,实现近一万帧视频的单卡处理,超过Meta发布的7B模型Apollo-7B。采用重构性token压缩技术显著提升了视频理解效率和质量,并在多个长视频评测基准上超越了同参数量的开源模型。