老刘
代码类型的RAG做chunk切分怎么做?兼看改进AST方案
2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。
多模态RAG前沿速读:三看SimpleDoc双线索实现思路
2025年6月19日,北京晴。介绍SimpleDoc多模态RAG方案,结合视觉嵌入和LLM生成的摘要来检索相关页面,并迭代更新查询以改进答案。结果显示其在4个DocVQA数据集上表现优于基准模型。
GraphRAG遇上DeepResearch:有趣的FusionGraphRAG项目推介
2025年6月18日星期三,北京晴天,《GraphRAG-Agent》项目推介介绍了一种结合可解释性和推理能力的问答系统,涵盖多步搜索、证据追踪及可视化展示等特性。
GraphRAG提速新思路E^2GraphRAG及DeepResearch Bench评估结果
今天是2025年6月16日,星期一,北京晴。文章提到了DeepResearch Bench评测和E^2GraphRAG提速思路的两个项目。DeepResearch Bench包含100个博士级别任务,评估了四种早期发布的Agent。而E^2GraphRAG提出了在索引阶段构建摘要树和实体图,并在检索阶段利用自适应检索策略来提高效率和效果。
纯Prompt提示LLM的多阶段知识图谱三元组抽取及Schema生成方案
今天是2025年6月15日,星期天,北京晴朗。本文介绍了一种纯LLM驱动的知识图谱三元组及Schema提取方案,该方法源自《AutoSchemaKG: Autonomous Knowledge Graph Construction》,通过模式归纳获得实体、事件和关系的类型,核心在于大量的prompt提示来构建知识图谱,并进行了成本效益分析。
三种主流文本嵌入编码范式及KG-Infused RAG做问题扩展新思路
今天是2025年6月13日,星期五,北京晴天。文章介绍了三种embedding编码范式(Bi-encoders、Cross-encoder、ColBERT)及其对比,并探讨了知识图谱与RAG结合在问答系统中的应用,重点介绍《KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs》的研究工作及其步骤。
如何用大模型自动生成PPT?AutoPresent及SlideCoder方案
今天是2025年6月12日,星期四,北京晴。文章介绍了两种PPT生成方案AutoPresent和SlideCoder,前者通过微调LLAMA模型生成Python代码,后者使用布局感知的检索增强生成框架,包含层次化检索增强生成、图像分割等技术。
GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser
在2025年6月11日的文章中,探讨了《Infinity Parser》结合强化学习和文档解析数据集的构建,并介绍了《When to use GraphRAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation》,分析了GraphRAG在不同场景下的有效性。
真实场景下文档解析中的2大类8个常见问题:目录层级解析、布局检测、阅读顺序及长表格拼接
2025年6月10日,北京晴。本文讨论了文档解析处理中的检测问题和语义解析问题,包括布局检测、阅读顺序识别、背景干扰、ppocrv5模型精度、跨页表格合并等问题,并提出了解决方案。