代码类型的RAG做chunk切分怎么做?兼看改进AST方案
2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。
2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。