AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型

上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。