人类水平归档

地铁换乘都搞不定？ReasonMap基准揭示多模态大模型细粒度视觉推理短板

2025年6月10日16时作者 PaperWeekly

ReasonMap 是首个聚焦于高分辨率交通图的多模态推理评测基准，用于评估大模型在理解图像细粒度结构化空间信息方面的能力。

2025年5月28日11时作者量子位

清华大学等机构联合发布RBench-V，评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%，远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。