Deep Research现有方案技术总结:实现架构、特点对比、现存问题及未来方向

2025年6月25日,星期三的北京晴朗天气下,对DeepResearch进行技术综述,分析了80多个实现并总结其发展历程、层次化架构和技术模式等,重点关注信息完整性、隐私保护等问题,并提出研究方向。

RAG的2025趋势重点及RAG+抽取场景的来源定位问题思考

2025年6月24日,北京晴天。文章讨论了信息抽取和RAG落地中的引文生成、来源定位需求及其底层逻辑与实际案例。提及模型可能产生“幻觉”导致的误导性答案,通过引文标注来源增强可信度。此外,文章总结了2025年RAG的发展趋势,包括多模态文档解析与统一抽取的重要性。

代码类型的RAG做chunk切分怎么做?兼看改进AST方案

2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。

表格RAG项目解读:一个过滤+澄清补充的数据工程式思路

今天是2025年6月20日,星五,北京,晴。继续看代码中的表格RAG项目,解决的问题是从大量表中检索相关表。思路有点怪,输入用户查询后先过滤大表,再补充额外特征信息送LLM生成答案,尽管设计不合理但仍有可借鉴之处。