3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
上海交通大学等团队推出Video-XL-Pro模型,实现近一万帧视频的单卡处理,超过Meta发布的7B模型Apollo-7B。采用重构性token压缩技术显著提升了视频理解效率和质量,并在多个长视频评测基准上超越了同参数量的开源模型。
上海交通大学等团队推出Video-XL-Pro模型,实现近一万帧视频的单卡处理,超过Meta发布的7B模型Apollo-7B。采用重构性token压缩技术显著提升了视频理解效率和质量,并在多个长视频评测基准上超越了同参数量的开源模型。
上海交通大学团队发布论文《A Survey of AI Agent Protocols》,提出二维分类体系和七大维度评估框架,旨在解决智能体间协议碎片化问题。该研究通过真实案例分析展示了不同协议在旅行规划中的应用差异,并对未来AI智能体协议的发展进行了展望。
ISCA Fellow 2025揭晓,8位华人学者入选。包括思必驰俞凯、中国台湾大学李宏毅及A*STAR Nancy Chen等多位专家。
上海交通大学团队开发出一种两栖粘附磁驱微型机器人,能够在空气和水中自如切换并操控多种目标。该研究发表于《Advanced Materials》期刊,提出利用双折返微阵列结构实现可靠粘附力,并展示其在干湿环境中的应用优势及多模态运动控制能力。
上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。
复旦大学等机构学者发布视频版本光照编辑成果,支持时序一致性、强光源场景下的高质量光影编辑,构建全新数据集用于评估。
穹彻智能近日完成数亿元Pre-A++轮融资,聚焦具身智能技术应用和商业化探索。联合创始人卢策吾及王世全主导研发的穹彻具身大脑Noematrix Brain具备多任务处理能力,并推出数据采集系统CoMiner。
MAYE 是一个从零实现的 RL for VLM 框架与标准化评估方案,旨在提升透明度和可复现性。它通过简化架构、提供标准评估体系及实证研究支持,帮助学者更清晰理解模型训练过程及其行为变化。