迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

RoboVerse 提出一个统一平台、数据集与评测体系,解决机器人仿真碎片化问题。MetaSim 解决跨仿真器兼容性;大规模合成数据集与标准化评测系统提升性能评估;混合仿真增强真实性;Real2Sim 支持从现实到仿真的资产重建;AI-Generate Tasks 创造新任务;支持 GPU 并行训练加速研究。

谷歌再次称霸!出自伯克利等华人学生项目,竟成世界170+模型竞技场

Chatbot Arena已成为全球最受瞩目的AI系统评测平台,吸引超过170个模型参赛。最新版本的Gemini发布并取得佳绩,引发科技巨头和初创公司争夺榜首。项目采用用户评分的方式进行对比,受到广泛关注。

视觉语言模型能否实现鲁棒的数学推理?UC伯克利发布测评基准DynaMath

本文介绍了一项新的动态生成的测评基准DynaMath,用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型(如GPT-4o)在简单数学题上的表现,发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体,评估了14个最先进的视觉语言模型的表现,揭示了其推理稳健性的局限性。