RAG的2025趋势重点及RAG+抽取场景的来源定位问题思考

今天是2025年6月24日，星期二，北京，晴

我们来看有趣的落地问题。

为什么在实际落地过程中，比如信息抽取、RAG 等，会有引文生成、来源定位这些需求？底层的逻辑是什么？有哪些实际的例子？在技术上如何做？

另外，看看RAG发展温故而知新，看看RAG的一个发展趋势，看下RAG的2025趋势重点

一、RAG、抽取等落地场景的定位问题思考

1、为什么需要引文生成？

目前，包括大模型在内的深度学习方案，生成数据的原理是基于概率模型，可能产生“幻觉”，也就是即虚构事实或无依据的结论，通过引文标注来源，用户可验证答案是否基于真实数据。

例如，RAG在生成答案前检索外部知识库，并将检索到的文档片段作为生成依据，这样可以给人员以交互入口。

以实际的实际的落地场景为例，在医疗或金融领域，若回答未标注政策条款来源，可能误导决策；而引用具体文件章节（如“《XX政策》第3.2条”）则增强可信度。

而除了这一层，还有人的因素，这些模型的决策过程缺乏可解释性，引文提供“解释层”，让用户理解答案的生成逻辑，这个在B端，G端的需求更为强烈。

2、有哪些典型的定位例子

先说RAG，定位可以定位到chunk，定位到某个具体的文档页面，这个在RAG的产品或者开源项目中十分场景。

一个是magi，知识图谱抽取的引文生成。这个比较早，在知识图谱中，给出抽取实体或者实体关系所来自于的段落，并通过线条的方式进行连接。

一个是典型的RAGflow中的RAGchunk定位，通过记录问题答案所在的chunk，chunk所在的文本索引，从而完成定位。

当然，也可以过渡到多模态任务上，例如答案定位VQA（Visual Question Answering），结合图像理解和NLP不仅要求系统回答问题，还需要定位图像中支持答案的证据区域。

3、从技术上看实现策略

以RAG中的引文生成为例，可以拆解为两个层面：一是如何让系统知道答案来自哪个文档（引文生成），二是如何精确定位到文档中的具体信息（来源定位）。

第一个问题是来源于大模型的能力，可以通过微调或者强化方式解决，在prompt中将相关的文档进行标记，加入一些数字标引，这个标引直接与chunk相关联。然后提示llm生成引文。

第二个问题，一般是通过物理方式进行，由于拿到了上一步关联的chunk，则可以同离线阶段相呼应。

例如，离线场景下，文档片段标识符存储，在构建向量数据库时，每个文本片段（chunk）需关联唯一标识符（如文档ID、起始位置、结束位置、URL等）。例如，使用Chroma或FAISS存储向量时，元数据字段可包含doc_id、chunk_index、file_path等信息。

而进一步，如果要在原文档中进行渲染，那么则需要进一步适用前端进行。

而对于信息抽取中的定位，就很自然的，因为抽取本来就是来源于某个段落，这个段落在原文中就有offset，因此这个只需要预先记录即可。

依旧是做RAG的总结，推荐一个blog:https://ragflow.io/blog/the-rise-and-evolution-of-rag-in-2024-a-year-in-review, 2024年RAG的崛起与演变年度回顾，其中有几个重要的点，摘取出来，做个记录。

1、从2023到2026年的RAG与LLM发展的预判

从 2024 年的文档解析，GraphRAG，会到 2025 年的多模态RAG以及结构化、非结构化的统一抽取（目前也确实是在往这个方向发展）

2、RAG的三个挑战定性不变

还是螺纹提，三个：非结构化多模态文档的问答效率低下：现有的LLMOps解决方案仅限于纯文本场景。PDF、PowerPoint演示文稿（PPT）或文本与图像融合的文档无法充分发挥其潜力；纯向量数据库导致召回率和命中率低，RAG 的核心在于搜索能力；只有能够根据用户的查询“搜索”出答案才能发挥作用。

3、RAG中的文档多模态Embedding

所以现在大家都在卷embedding，单模态或者多模态，单模态入 qwen3-embedding，多模态也是用的比较多，例如colqwen,colpali。

这种好处在于，绕过OCR和chunk，直接做问答，这也是在做加法。

4、RAG中的文档解析的演变

确保数据质量（输入质量）对于获得高质量结果（输出质量）至关重要，所谓garbage in, garbage out。

这个故事讲了很久，典型的路线就是pipeline，关于这块，社区也讲了许多了。

预测2025年，基于编码器-解码器架构的研究有望取得进一步进展。这个应验了，今年统一的多模态文档解析模型，该模型将各种非结构化文档转换为文本内容。

近期的monkeyocr, dolphin, mineru2.0等方案也正在朝这方面发展。这一些，都直接促成了当前多模态RAG的发展。

1、https://ragflow.io/blog/the-rise-and-evolution-of-rag-in-2024-a-year-in-review

（文：老刘说NLP）