OCR-Reasoning:揭秘多模态大模型在复杂图文推理中的真实能力

主流的OCR相关评测基准,如DocVQA、TextVQA、InfographicVQA、OCRBench等,其聚焦点在于信息抽取任务(如识别实体、提取键值对)。

但是图文丰富的推理任务,如金融报告分析、发票分析等,依赖复杂图文信息的真实OCR场景时,多模态大模型的深度推理能力,缺乏系统性的评估标准,例如:

  • 空间关系理解:文字的空间布局、元素间的方位关联
  • 数值计算与分析:表格数据的运算,图表趋势的解读
  • 逻辑推理与批判性思维:基于图文信息,通过演绎或归纳得出可靠结论

OCR-Reasoning特点

  • 系统性评估:

    • OCR-Reasoning 基准涵盖了 6 种核心推理能力和 18 种实际推理任务,能够全面评估多模态大型语言模型在文本丰富图像推理任务中的能力。
    • 6 种核心推理能力,包括空间推理、数值分析推理、数学推理、列举推理、逻辑推理和多学科知识推理。
  • 推理过程标注:

    • 对于每个问题,标注详细的推理过程和最终答案。
    • 推理过程的标注采用了两种方式:一是人工标注,二是利用 Gemini 2.0 flash 生成推理路径。
    • 之后由另一组标注人员进行质量评分,择优保留。最终还需进行人工复查与纠错。
    • 题目最终由三名标注人员独立归类至六大类别,并以多数共识确定最终类别,确保数据质量与分类可靠性。
  • 数据来源广泛:

    • OCR-Reasoning 的数据来源于互联网图片、真实世界照片以及现有的基准数据集,涵盖了多种文本丰富场景,具有较高的代表性。

举几个例子:

  1. 空间推理
  • 问题:Jose Arcadio Buendia 与 Jose Arcadio II 是什么关系?
  • 推理过程:
    • Jose Arcadio Buendia 和 Ursula Iguaran 生了一个儿子 Jose Arcadio,Jose Arcadio 是 Jose Arcadio Buendia 的儿子。
    • Jose Arcadio 和 Rebeca 生了一个孩子 Arcadio,Arcadio 是 Jose Arcadio 的儿子。
    • Arcadio 和 Santa Sofia de la Piedad 生了一个孩子 Jose Arcadio II,Jose Arcadio II 是 Arcadio 的儿子。
    • 因此,Jose Arcadio II 是 Jose Arcadio Buendia 的曾孙。
  • 最终答案:曾孙。
  1. 数值分析推理
  • 问题:Package One 比单独购买物品便宜多少?
  • 推理过程:
    • 1 Large Soft Drink:6.25 美元,1 Large Popcorn:6.99 美元,1 Medium Candy:4.75 美元。
    • 单独购买的总成本为 6.25 + 6.99 + 4.75 = 17.99 美元。
    • Package One 的成本为 14.75 美元。
    • 因此,Package One 比单独购买物品便宜 17.99 – 14.75 = 3.24 美元。
  • 最终答案:3.24 美元。
  1. 数学推理
  • 问题:判断函数 f(x) 的性质。
  • 推理过程:
    • 定义函数 f(x)。
    • 判断 f(x) 是奇函数,因为 f(-x) = -f(x),表明函数关于原点对称,排除选项 B 和 D。
    • 计算 f(x) 在特定点的值,进一步排除选项 B。
  • 最终答案:选项 A。
  1. 列举推理
  • 问题:一个月中有多少天的销售额超过 10K?
  • 推理过程:
    • 销售额超过 10K 的天数为:2、3、4、5、6、8、9、10、11、12、14、16、21、23、24、25、26、29、30、31。
  • 最终答案:20 天。
  1. 逻辑推理
  • 问题:孩子们在学习时能否看到雪?
  • 推理过程:
    • 学习地点是 The Church Center, 548 Country Road, Singapore。
    • 由于新加坡位于赤道附近,不会下雪。
    • 因此,孩子们在学习时看不到雪。
  • 最终答案:No。
  1. 多学科知识推理
  • 问题:判断关于 PHA 的说法是否正确。
  • 推理过程:
    • A. PHA 的重复单元含有两个羧基,因此 A 选项错误。
    • B. PHA 是一种聚酯,由图中的单体缩合而成,因此 B 选项正确。
    • C. PHA 是一种聚酯,在碱性条件下可以发生水解,因此 C 选项正确。
    • D. 在 PHA 的重复单元中,只有一个与甲基相连的碳原子是手性碳原子,因此 D 选项正确。
  • 最终答案:A。

测评Qwen2.5-VL-7B模型

git clone https://github.com/SCUT-DLVCLab/OCR-Reasoning
cd OCR_Reasoning
python run.py --data OCR_Reasoning --model Qwen2.5-VL-7B-Instruct --verbose

https://arxiv.org/pdf/2505.17163

https://github.com/SCUT-DLVCLab/OCR-Reasoning

https://ocr-reasoning.github.io/

(文:PaperAgent)

发表评论