PDF转换归档 - 每时AI

文档处理新革命！Chunkr 专为RAG与知识库场景设计，多格式智能解析！

2025年8月6日8时作者开源星探

Chunkr 是一款基于视觉语言模型的文档处理API，能够将PDF、PPTX、DOCX等复杂文档转为RAG/LLM就绪的结构化数据。它解决了OCR识别不准和格式转换耗时等问题，支持多格式文档解析、带边界框的高精度OCR、语义分块等功能，并提供Python SDK和多种输出形式。

2025年7月17日14时作者老刘说NLP

如何结合自身的技术优势，在落地的具体过程中，贡献出自己的一套优势方案
，是大家所关注的点。
作为文档

2025年6月29日8时作者 NLP工程化

MinerU是一款PDF转换工具，支持多种输出格式和功能，包括去除排版元素、识别并转换公式及表格等。

2025年2月6日23时作者 GitHubStore

Look Scanned 是一个开源工具，可在浏览器中处理 PDF 文件以使其看起来像扫描件，支持本地离线使用，安全且高效。

2025年1月9日12时作者 GitHubStore

使用最先进的视觉语言模型将 PDF 文档解析为格式精美的 Markdown 内容。支持多种 Vision LLM 模型，并提供本地模型托管功能。

2025年1月6日12时作者 NLP工程化

Vision Parse 是一款智能工具，利用先进的视觉语言模型能精准识别并提取文本、表格和公式，保留文档格式和层次结构，具备扫描文档智能处理、高级格式完整保留、多模型协同支持及私有化部署选项四大亮点。