3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

上海交通大学等团队推出Video-XL-Pro模型,实现近一万帧视频的单卡处理,超过Meta发布的7B模型Apollo-7B。采用重构性token压缩技术显著提升了视频理解效率和质量,并在多个长视频评测基准上超越了同参数量的开源模型。

上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络

上海交通大学团队发布论文《A Survey of AI Agent Protocols》,提出二维分类体系和七大维度评估框架,旨在解决智能体间协议碎片化问题。该研究通过真实案例分析展示了不同协议在旅行规划中的应用差异,并对未来AI智能体协议的发展进行了展望。

顶刊发布上海交大两栖粘附磁驱微型机器人:小尺寸大作用的创新成果

上海交通大学团队开发出一种两栖粘附磁驱微型机器人,能够在空气和水中自如切换并操控多种目标。该研究发表于《Advanced Materials》期刊,提出利用双折返微阵列结构实现可靠粘附力,并展示其在干湿环境中的应用优势及多模态运动控制能力。

AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型

上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。

具身智能技术企业「穹彻智能」完成数亿元Pre-A++轮融资

穹彻智能近日完成数亿元Pre-A++轮融资,聚焦具身智能技术应用和商业化探索。联合创始人卢策吾及王世全主导研发的穹彻具身大脑Noematrix Brain具备多任务处理能力,并推出数据采集系统CoMiner。

从零搭一套可复现、可教学、可观察的RL for VLM训练流程,我们试了试

MAYE 是一个从零实现的 RL for VLM 框架与标准化评估方案,旨在提升透明度和可复现性。它通过简化架构、提供标准评估体系及实证研究支持,帮助学者更清晰理解模型训练过程及其行为变化。