MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。主要功能:
-
删除页眉、页脚、脚注、页码等元素,确保语义连贯 -
输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版 -
保留原文档的结构,包括标题、段落、列表等 -
提取图像、图片描述、表格、表格标题及脚注 -
自动识别并转换文档中的公式为LaTeX格式 -
自动识别并转换文档中的表格为HTML格式 -
自动检测扫描版PDF和乱码PDF,并启用OCR功能 -
OCR支持84种语言的检测与识别 -
支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等 -
支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检 -
支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速 -
兼容Windows、Linux和Mac平台


参考文献:
[1] http://github.com/opendatalab/MinerU/
[2] https://mineru.net/
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)