知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳

东南大学联合多所研究机构提出了KRIS-Bench,一个评估图像编辑模型知识结构的基准。该基准从事实性、概念性和程序性知识三个层面测试编辑能力,并包含1267对图像指令样本,覆盖初级到高级任务难度。