突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent,首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型,在真实环境中实现零样本单步动作预测90%的准确率。
上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent,首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型,在真实环境中实现零样本单步动作预测90%的准确率。
研究构建首个面向MLLM的细粒度AES基准EssayJudge,采用10项细粒度评分维度,涵盖词汇、句子和文章三个层级,评价作文质量。
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。
MetaAgentX团队推出首个专注于‘多模态交互智能体×CAPTCHA问题’的开放式研究平台——Open CaptchaWorld,实测结果显示多模态模型在解验证码方面表现不佳。该平台旨在评估和改进大模型的解题能力,并揭示当前多模态Agent在高交互任务中的短板。
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
般会把最好的模型留到 I/O 大会上发布。但在 Gemini 时代,谷歌很可能会在三月的某个周二突然