解锁文档处理新高度！这个开源神器支持OCR+机器学习，超丰富的API接口，效率翻倍！

在数字化时代，文档处理是企业和开发者日常工作中不可避免的挑战。Word、PDF、扫描件、Excel表格等格式繁多，整理为统一格式耗时费力。

今天给大家推荐一款 ISPRAS 团队开源的全能型文档提取与转换工具：Dedoc。

Dedoc凭借先进的机器学习和OCR技术，不仅能处理Office文档，还能从PDF、扫描件中智能提取表格、文本格式和逻辑结构，堪称文档处理领域的“瑞士军刀”。

支持将任意文档自动转为统一结构化 JSON 格式，方便二次处理、索引、摘要、问答等场景。

核心功能亮点

• 多文档格式支持：解析DOC/DOCX、PPTX、PDF、Excel、CSV、TXT、PNG/JPG、HTML等，覆盖90%+文档场景。
• 文档逻辑结构提取：自动识别标题层级、嵌套列表。
• 复杂表格解析：智能识别和提取表格数据，支持复杂多页表格。
• OCR扫描件处理：Tesseract 5.0+图像预处理，自动纠正文档方向，解析无文本层PDF/图片。
• 元数据与格式：提取字体、缩进、粗体等样式，附加page_id等元数据。
• 批量与嵌套处理：处理ZIP/RAR压缩包内文档，自动解析附件。

快速入手

Dedoc的安装和使用非常友好，官方提供Demo体验、Docker部署、pip安装及详细文档指南。

新手建议直接使用官方Demo网站，只需要设置好相关参数，上传文档即可快速处理。

Demo 地址：https://dedoc-readme.hf.space

该项目有一个REST API，还可以在Docker容器中运行它。

# 拉取镜像
docker pull dedocproject/dedoc

# 运行容器
docker run -p 1231:1231 --rm dedocproject/dedoc python3 /dedoc_root/dedoc/main.py

当API服务运行成功后，就可以在本地进行调用：

with open(filename, "rb") as file:
    files = {"file": (filename, file)}
    r = requests.post("http://localhost:1231/upload", files=files, data=dict())
    result = r.content.decode("utf-8")

然后会以json输出解析内容。

还可以使用 pip 安装dedoc（Python环境3.8版本及以上）

pip install "dedoc[torch]"

更多API使用可以参考文档来进行操作。

使用文档：https://dedoc.readthedocs.io/en/latest

结构提取器展示：

写在最后

Dedoc 作为ISPRAS团队的开源力作，以其强大的多格式支持、智能结构提取和OCR能力，为文档处理带来了革命性突破。

无论是处理复杂PDF、扫描件，还是提取表格和元数据，Dedoc都能提供高效、精准的解决方案。

其灵活的部署方式和对RAG的天然支持，使其成为开发者构建智能文档系统的理想选择之一，适合配合 LLM 做一些文档智能问答、摘要、内容重建等任务。

GitHub 项目地址：https://github.com/ispras/dedoc

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

核心功能亮点

快速入手

写在最后

发表评论 取消回复

发表评论取消回复