文档解析类数据合成工具:7个可用的OCR及文档版式、表格数据开源项目
今天回顾了文档版式及表格数据合成的相关工具和技术。其中包括7个OCR合成数据工具和2种文档版式及表格数据合成工具。这些技术将在实际工作中应用,助力提升效率。老刘也分享了自己的开源项目及其心得。
今天回顾了文档版式及表格数据合成的相关工具和技术。其中包括7个OCR合成数据工具和2种文档版式及表格数据合成工具。这些技术将在实际工作中应用,助力提升效率。老刘也分享了自己的开源项目及其心得。
2025年6月30日,北京晴天。EraRAG通过局部敏感哈希和层次化图构建解决了动态语料库的检索增强生成问题,相比RAPTOR减少了高达77.5%的图重建时间。上下文工程概念将RAG、提示词工程等整合为一个整体新词,旨在帮助LLM合理执行任务。
2025年6月17日,北京晴。文章总结了文档解析中的实际问题,包括目录层级解析、布局检测、阅读顺序及长表格拼接等8个小问题,并探讨了先做版面分析、多任务模型的经典显存问题、下划线解码等问题。
2025年3月17日文章总结:介绍了两个关于LLM和推理大模型的GitHub汇总项目。第一个涵盖数据处理、训练、部署等多个方面,第二个专注于语言模型及多模态推理技术,并提供相关论文、代码库等资源。