RAG
将各种文件格式转换为Markdown的开源工具E2M
E2M 是一个 Python 库,用于将多种文件格式(如 doc, docx, epub, html 等)转换为 Markdown 格式。通过解析器和转换器架构实现,支持包括 PDF、MP3、URL 在内的多种文件类型的处理,并提供 CLI 工具来加速转换过程。
一个轻量级RAG文本切块项目Chonkie
Chonkie 是一个轻量级的 RAG 分块库,提供多种分块器支持固定大小标记块、单词、句子和语义相似性分块,速度比竞争对手快3-2.5倍。通过 pip 安装 Chonkie 并使用 TokenChunker 等分块器进行文本分块。