SIGIR 2025 LiveRAG竞赛获奖方案及中文文档版式分析的标签设计
2025年7月7日星期一北京晴,小暑注意防暑。文档智能进展包括版式分析标签问题和RAG竞赛方案;现有中文文档版式分析的标签体系主要有360layoutanalysis、doclayout和PP-DocLayout;SIGIR 2025 LiveRAG竞赛有多个获奖方案介绍,如TopClustRAG、RMIT–ADM+S等。
2025年7月7日星期一北京晴,小暑注意防暑。文档智能进展包括版式分析标签问题和RAG竞赛方案;现有中文文档版式分析的标签体系主要有360layoutanalysis、doclayout和PP-DocLayout;SIGIR 2025 LiveRAG竞赛有多个获奖方案介绍,如TopClustRAG、RMIT–ADM+S等。
今天是2025年7月6日,星期日,北京晴天。文章介绍了六个无代码LLM、Agent和RAG开源工具,并探讨了使用推理大模型进行时间序列预测的方法及其奖励函数设计。
2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。
2025年7月4日,北京晴。文章介绍了数据合成工具Easy Dataset和DataFlow,后者支持多种数据源的解析与处理,并涵盖纯文本、强推理等任务。此外,探讨了自然场景文档解析评估问题,强调WildDoc数据集的重要性及其在现实世界扭曲下的表现。
2025年7月3日星期四,北京下雨。介绍了多模态RAG进展,包括ColBERT和ColPali的局限性及标准框架问题。提出使用Agent进行内容过滤,并讨论了文档预处理,特别是非印刷体文档标准化的重要性。文章还提到MDocAgent项目及其五个专门智能体的工作流程和架构选型。同时探讨了文档图像增强问题,介绍了DocRes模型及其统一五种文档图像还原任务的通用模型。
今天继续记录一些关于文档解析的问题,包括内容遗漏、公式重复输出、大写识别、阅读顺序评测、合并页面和幻觉问题等8个典型问题,并探讨了这些问题在实际业务中的解决方案和理解。
2025年7月1日,文章介绍了多模态RAG中的文档信息增强的研究,并讨论了关于dify是否应被抛弃的思考。文章强调了多模态方法在评估企业文档理解任务上的优势,展示了多种增强方法的效果比较。同时,也指出了Dify作为工具存在的局限性,包括其处理PDF表格识别问题的能力不足和切割策略不够先进等问题。
老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。
2025年6月30日,北京晴天。EraRAG通过局部敏感哈希和层次化图构建解决了动态语料库的检索增强生成问题,相比RAPTOR减少了高达77.5%的图重建时间。上下文工程概念将RAG、提示词工程等整合为一个整体新词,旨在帮助LLM合理执行任务。