形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准

香港科技大学推出MATP-BENCH基准测试集,评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力,在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。

35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板

多模态大模型在文档理解领域的性能显著,但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc,揭示了当前模型的不足,并提出改进策略。

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

上海人工智能实验室联合多家单位提出了一种名为VeBrain的新模型,该模型通过统一感知、推理和控制建模方式实现了多模态大模型对物理实体的直接操控。它在视觉感知、空间推理和机器人控制方面均表现卓越,并且与现有模型相比,在多个基准测试中表现出最佳性能。