PDF 归档 - 每时AI

OCRFlux-3B：PDF转Markdown

2025年7月5日8时作者 NLP工程化

PDF转Markdown工具OCRFlux-3B效果不错，支持在线使用和下载模型。

2025年6月6日11时作者 GitHubStore

片和图表）中提取结构化数据，并返回带有精确元素位置的层次化 JSON。
此 Python 库封装了该

2025年5月31日11时作者 GitHubStore

概念设计，能够无缝地将项目编译成适合打印的书籍或交互式演示文稿。通过功能强大的图灵完备的 Markd

2025年4月6日11时作者 GitHubStore

BabelDOC 是一个强大的 PDF 科学论文翻译工具，支持双语对照、数学公式、表格和图形保留原格式。可使用命令行界面安装或在线服务免费每月翻译 1000 字节。

2025年3月5日12时作者 GitHubStore

Markdownify 是一个模型上下文协议服务器，用于将多种文件类型和网页内容转换为 Markdown 格式。它支持 PDF、图片、音频、DOCX、XLSX 和 PPTX 文件的转换，并能处理视频字幕、必应搜索结果等。

2025年2月19日12时作者 GitHubStore

开源的基于容器的 RAG 系统，支持本地和外部 AI 服务，专注于安全地查询本地文档。

2025年2月16日8时作者 NLP工程化

Kreuzberg 是一款开源工具，能从各种文件格式（如 PDF、图像、Word 文档）中自动化提取文本，支持 GPU 无要求且提供统一的异步接口。