今天是2025年5月16日,星期五,北京,晴。
我们说已经过许多关于知识图谱,RAG,文档智能方面的事情,这些都在2024年得到了很好的发展,也涌现出了许多细化的方案,GraphRAG,DeepResearch等层出不穷,Mineru、Mistralocr等文档解析工作也出现了不少,Qwen3也发布了。
但是,目前已经进入到5月份了,仿佛都静了下来?许多github项目都不怎么更新了?模型发布也没那么大波澜了?似乎已经慢慢进入到一个静默时期,疲劳期或者爬坡期?那么,接下来,在RAG方向上,有什么感触,这里说三点。
另外,来看看语言分析上的两个有趣工作,一个是历史数据,可以用来做演变。一个是大模型语言的分析,都很有趣。
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
一、关于RAG的三点感受
1、“一周出demo,半年用不好”这句话不管技术如何发展,总会成立
因为RAG是一个框架,而不是根治解决方案,目前问题的根本解还是在特定业务场景,特定业务问题,依旧需要特事特办,Case by case,这个规律不会变。从技术方案层看,已经出现了许多的变体,无论是从query改写、拆解或者Hyde方案,还是向量化中的各类Embedding,还是召回侧的hybrid混合检索,还是各种rank,rerank模排序去噪,还是prompt组装侧的各类组合策略,还是生成结果侧的引文生成,自我修正,还是把这些流程外面套一个while循环,变成AgenticRAG式的DeepResearch,还是切换成使用colqwen式的多模态RAG,这些方案都已经有很多了。从开源框架上看,已经有了coze,dify这类低代码拖拽式快速搭建方案,也有RAGflow,langchain,llamaindex,cheerystudio等多个RAG框架库,这些其实都极大的满足了半天就能出RAG的需求。从后面看,这些框架同质化严重,要想做出差异化其实并不容易,所以很多就是做多模态数据接进来,把实时接进来,或者把前期的文档智能做起来,做深度的Deepdoc这些。
因此,基于这样一种观察和现实,RAG的重要性其实在变小,性价比并不高,解决的也并不是太刚需,这个大家应该都有感触。而更合适或者更普遍的的演化方向,已经退化或者叫进化也行,变为一个小组件,放入到Agent这个大系统里,参与到Agent的记忆管理、通信等环节,目前正是朝着这个方向在演化。
2、RAG中的GraphRAG,能继续演化的点不多了
GraphRAG之所以能够在过去有很多idea出来,根本逻辑在于是基本特性。Graph或者叫KG也行,一个是具备结构化属性,通过结构化信息提取,提取关键词,实体,关系这些,收到了一种信息精炼、去噪的作用,并提供信息组织和关联的锚点作用;一个是这种Graph结构的相关性,上面可以提供相关性的连接工作,可以方便后续去做多跳,广度或者深度游走,可以解决召回的全面性问题,比如MS的解决local search,提升某个实体答案的全面性,并且也可以运用社区发现等算法做层层摘要,从而解决文档总结的问题。一个是在这个图结构上可以运行的量化算法。pagerank,中心度算法,shortest path,node2vec等图算法,给数据量化角度提供一些思路。从结构化上看,可以做的点,其实是添加节点类型,比如引入多模态,把图像,文本,视频,段落,层级等更多模态或者多粒度的信息进行链接,或者怎么设计更合适的节点,从而为多模态RAG做准备,也就是变成多模态GraphRAG;从Graph结构相关性上,可以做的点,包括怎么对路径进行剪枝,如何找到对问题本身有因果关联的path,更精准地去噪,更精简上下文,这块其实难度不小。从Graph的量化信息方面,如果再走,可能就会走GNN图神经网络那套,但这个在数据建模上难度会大一些。当然,在RAG上可能会是这样,但是依旧可以切热点趋势去做,比如现在出现的,与Agent的memory结合,基于Graph做记忆的管理,增强智能体的个性化体验,这个用Graph去做会很合适,例如mem0^g和Graphti就是这类方案;又如可以与R1,思维链等做结合,使用GraphRAG去做可解释推理数据的合成等,例如MedReason就是其中的一类工作。只要热点不断,只要去研究,总能找到能贴合的点,也就是化被动为主动。
3、RAG中的文档解析值得做但无需重投入
大模型应用,尤其是RAG这一波,文档解析的需求和受重视程度被快速提升,这也是我过去一年重点做的工作,这里的支撑逻辑在于,RAG中涉及到要素的召回,而文档解析的效果会直接影响文档切分以及问答效果。例如面对不可编辑的ppt或者pdf,如果使用传统的pdfminer,pypdf等工具,会破坏其中的表格,图片等信息,造成文本信息错乱。所以这就直接促成了一个看似较为完备的文档解析需求,包括涵盖住不同领域,不同尺寸的文档版式东西,将页面中的表格,图片,页眉页脚,段落,标题,表格标题,图片标题,公式等区域进行检测;表格解析,将有线的,无线的,缺线的,研报表格,金融长表等转成html或者latex表示,用于后期做tableQA;又如后续的公式解析,段落标题OCR,阅读顺序;又如前期的文档去水印,去印章等处理;又如手写体识别等;也包括多栏阅读顺序等,这些其实都是之前做OCR那套的常规任务,已经发展多年了,并不是一个新兴领域。但是,实际上,虽然文档解析对RAG很重要,但也没那么重要,以现有的能力上来说,大模型还只是对段落标题这类要素有较好的效果,对于公式,表格,图表,图片这些消化能力并不是很好,而这个又占据了主要的研发时间,并且大模型对于一些偶发的段落错乱,文本错乱问题,其实都有一个较好的容错性。基于这样一种假设,文档解析做深,做复杂其实并不那么有性价比。重点还是把文字部分做好即可,做好版式分析,把对应元素区域做隔离区分,已经能够涵盖住大部分的场景需求,至于表格解析,公式解析这些,其实性价比也没有那么高。
目前文档方向,大家也把文档层级结构这些看的很重,希望做到完美的markdown恢复,这个其实并不是刚需,是另一个文本恢复的领域,主要用途在文档格式转换,文档复原,比如pdf2docx,pdf2ppt,这种场景下就需要尽可能地把文档进行高保真的,不遗漏、每个要素都力求准确的做,这个自然是要做的。但注意,这个跟RAG无关,也跟LLM没有太多关系。当然,这个做好了,RAG会更好,这个逻辑是对的,但是要看投入产出比,是否划得来。
所以,RAG继续往后走,其实是有些需要总结的,有些是可以预判的,有些误区是可以规避的,有些优点是可以发挥的,这些是我们可以做深入讨论的点。
二、关于语言的几个有趣的点
我们继续看看几个有意思的点,谈谈语言分析方面的事情。
一个是数据集方面,历史报纸语料,美国新闻报纸数据库,时间涵盖1780-1960,Melissa Dell及合作者使用美国公共图书馆接近2000万份的报纸扫描件,共11.4亿篇文本数据,https://huggingface.co/datasets/dell-research-harvard/AmericanStories,这个跟我们之前的人民日报历史数据可以一同收集,做历史研究是有意义的。也可以接入到大模型当中,让大模型做一些分析,得到一些观点和演变趋势,都很有意义。
另一个是对于大模型而言,其已经成了大面积内容的生产工具,在这种前提下,如果将不同的大模型当做一个个不同的创作者,是内容上呈现出什么样的特点,研究下还是有意义的。所以可以看看这个工作《A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias ,https://arxiv.org/pdf/2505.09056,对12个主流LLM产生的300万份文本进行分析,揭示了这些模型在输出的内部相似性(普遍高于人类)、跨模型风格差异、多样性及潜在偏见(如GPT-4独特的词汇风格但在深层语义上与GPT-3.5相似,以及Gemma-7B和Gemini-pro在偏见上相对均衡)等方面的特点,都挺有趣的。
(文:老刘说NLP)