结构化数据提取归档

文档处理新革命！Chunkr 专为RAG与知识库场景设计，多格式智能解析！

2025年8月6日8时作者开源星探

Chunkr 是一款基于视觉语言模型的文档处理API，能够将PDF、PPTX、DOCX等复杂文档转为RAG/LLM就绪的结构化数据。它解决了OCR识别不准和格式转换耗时等问题，支持多格式文档解析、带边界框的高精度OCR、语义分块等功能，并提供Python SDK和多种输出形式。

2025年6月23日8时作者开源星探

表格和公式的复杂文档。
RAG-Anything
是由香港大学数据智能实验室开发的一款开源的多模态R

2025年4月9日8时作者 NLP工程化

Versatile-OCR-Program是一款教育场景专用的OCR工具，能够提取试卷等复杂材料中的多模态信息，并支持多种语言和输出格式。