代码类型的RAG做chunk切分怎么做?兼看改进AST方案
2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。
2025年6月21日,北京晴。代码RAG的切分方法包括基于语法结构和逻辑块的切分策略,以及混合策略。前者破坏语义完整性,后者在保留功能性和连贯性方面表现不佳。改进方案cAST使用抽象语法树进行递归分割,结合贪婪合并以提高信息密度,并通过非空白字符数量来衡量块大小。
DeepSeek AI 推出 DeepSeek-R1 模型,引入群体相对策略优化(GRPO)和多阶段训练方法。通过强化学习提升大语言模型推理能力,并在监督微调和拒绝采样后形成最终模型。