PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!

PDF Document Layout Analysis 是一款开源工具,基于 Vision Grid Transformer 和 LightGBM 架构,能高精度识别 PDF 中的多种元素,并确定其正确顺序。它支持高性能视觉模型和快速轻量级模型选择,同时提供多样化表格提取、公式提取等多种功能,适用于学术/业务类 PDF 处理。