今天是2025年7月8日,星期二,北京,晴
昨天看了看文档版式分析的事情,解决的是业务标签的问题。
今天来看文档方面的数据侧,看看数据合成,尤其是7个可用的OCR合成数据工具以及文档版式及表格数据合成工具,这些都会在实际的工作中用到,很实用。
一、7个可用的OCR合成数据工具
1、text_renderer
生成用于训练深度学习 OCR 模型(例如CRNN)的文本图像。支持拉丁语和非拉丁语文本。

地址:https://github.com/Sanster/text_renderer
2、SynthText
用于生成合成文本图像,逻辑来自:https://www.robots.ox.ac.uk/~vgg/data/scenetext/

地址:https://github.com/ankush-me/SynthText
3、TextRecognitionDataGenerator
生成文本图像样本以训练OCR。

地址:https://github.com/Belval/TextRecognitionDataGenerator
4、Chinese_OCR_synthetic_data
支持合成输出的图像进行增强图片中的文本,其中包括旋转、倾斜、剪切和扭曲。

地址:https://gitee.com/turingscat/Chinese_OCR_synthetic_data/
5、SynthText3D
从3D虚拟世界合成场景文本图像地址:https://github.com/MhLiao/SynthText3D
6、UnrealText
用3D图形引擎合成场景文本图像。
地址:https://github.com/Jyouhou/UnrealText/
7、SynthTIGER
自然场景OCR数据合成。

地址:https://github.com/clovaai/synthtiger
二、文档版式及表格数据合成工具
版式分析是做文档ocr的前置步骤
1、Mesh-candidate BestFit
主要思想是通过搜索采样候选与当前布局中可用网格之间的最佳匹配,迭代地从一小组公共数据集中插入元素,最终实现文档合成。

最终实现的效果如下:

地址:https://github.com/opendatalab/DocLayout-YOLO/tree/main/mesh-candidate_bestfit,https://deepwiki.com/opendatalab/DocLayout-YOLO/3.1-mesh-candidate-bestfit-algorithm
2、表格数据合成工具
通过浏览器渲染生成表格图像,代码修改自论文:https://arxiv.org/pdf/1905.13391

地址:https://github.com/WenmuZhou/TableGeneration
(文:老刘说NLP)