R1-GRPO强化范式用在KG抽取的粗暴实现：兼看RAG、推理加速等相关进展

今天是2025年02月11日，星期二，北京，天气阴。

今天我们来看看R1和知识图谱结合的一个粗暴结合，其实现方式，有种为了做RL而做RL的直蹭之嫌，从源码角度看具体实现。

另一个是回顾昨日社区技术进展早报，围绕强化学习R1用于知识图谱信息抽取、推理大模型四种习得范式，RAG-webui，RAG和deepseek部署加速。GraphRAG还是有一些推进。

专题化，体系化，会有更多深度思考。大家一起加油。

一、R1范式用在知识图谱抽取的粗暴实现

我们先看R1和知识图谱结合，open-r1-text2graph：开源复现DeepSeek R1的文本到图谱抽取训练方案。十分粗暴，且不完整。不建议去复制，。

基于GRPO强化学习，提升模型对结构化信息的提取能力；提供完整的数据生成、监督训练到强化学习的: https://github.com/Ingvarstep/open-r1-text2graph，https://huggingface.co/blog/Ihor/replicating-deepseek-r1-for-information-extraction

原图画的有错误，如下：

正确的应该是：

期训练过程包括三个主要阶段：合成数据生成、监督训练和强化学习（RL）训练。

在合成数据生成阶段，从数据收集开始，收集与目标领域相关的多样化文本来源，通过Llama 70B将非结构化文本转换为基于图的表示形式，也就是进行抽取，形成如下形式：

{ "entities": [ { "id": 0, "text": "Microsoft", "type": "company" }, { "id": 1, "text": "Satya Nadella", "type": "person" }, { "id": 2, "text": "Azure AI", "type": "product", } ], "relations": [ { "head": "Satya Nadella", "tail": "Microsoft", "type": "CEO of" }, { "head": "Microsoft", "tail": "Azure AI", "type": "developed" } ] }

然后，进行思维链数据合成，将生成的结构化预测JSON数据以及文本输入到DeepSeek-R1 Llama 70B中，以生成能够解释提取过程的思维链，这里用到的数据在：https://huggingface.co/datasets/Ihor/Text2Graph-Open-R1

但是思维链数据并未开放，合成数据prompt 如下，在：https://github.com/Ingvarstep/open-r1-text2graph/blob/main/src/generate.py

在监督训练阶段，在开始强化学习之前，考虑到使用的是小型模型，需要额外的监督训练来确保模型能够以正确的格式返回数据。为此，仅使用了1000个样例进行微调。

微调的代码在：https://github.com/Ingvarstep/open-r1-text2graph/blob/main/src/train_supervised.py

在强化训练阶段。采用基于群体相对策略优化（GRPO）的强化学习，几个reward的曲线十分波动。

其中设计到两个奖励函数，即：格式奖励、JSON奖励、F1奖励。奖励函数赋予了不同的系数，优先考虑F1奖励。

格式奖励：确保输出遵循结构化格式，其中思维过程被封装在相应的标签中（在启用思维模式的情况下）。

JSON奖励：专门验证格式良好且机器可读的JSON表示，并确保其结构符合期望的格式。

F1奖励：通过与真实图进行比较，评估提取的实体和关系的准确性。

坦白讲，这个工作水的嫌疑很大，简单粗暴，对于知识图谱这种任务，其实直接sft，就已经能够解决很多问题。

模型也已经出来了的，放在https://huggingface.co/Ihor/Text2Graph-R1-Qwen2.5-0.5b，体验了下，效果不是很好。

二、技术社区昨日相关进展回顾

我们来看昨日进展早报，围绕强化学习R1用于知识图谱信息抽取、推理大模型四种习得范式，RAG webui，RAG和deepseek部署加速等话题。

1、RAG进展，Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research，用知识图谱组织推理逻辑，并结合推理大模型用在深度搜索研究上的一个思路，https://arxiv.org/pdf/2502.04644，
Agentic Reasoning框架中引入了Mind Map代理，构建结构化的知识图以跟踪逻辑关系，提高演绎推理能力。

模型在推理过程中动态地与外部工具交互，检索结构化记忆，并生成逻辑推理链和最终答案。

Mind Map代理构建Mind Map以存储和结构化推理模型的实时推理上下文。Mind Map通过将原始推理链转换为结构化知识图来实现，帮助模型更好地组织和理解复杂的逻辑关系。

网络搜索代理调用网络搜索代理从互联网检索相关信息，并将其整合到推理链中，确保信息的相干性和相关性，项目地址在：https://github.com/theworldofagents/Agentic-Reasoning

2、RAG进展，一个webui，RAG Web UI：基于RAG技术的智能对话系统，快速构建基于私有知识库的智能问答服务，可使用 OpenAI、DeepSeek 等云端服务，也支持通过 Ollama 部署本地模型。支持多种文档格式（PDF、DOCX、Markdown等）和异步处理，提升效率: https://github.com/rag-web-ui/rag-web-ui

整体架构不错，可以用用看。

3、推理框架进展，KTransformers框架，在24GB显存+382G内存环境下运行DeepseekR1和V3的效果，实现最高3至28倍的加速效果（相对于llama.cpp）。运行Q4_K_M量化版本，最低仅需14GB显存和382GB内存。https://github.com/kvcache-ai/ktransformers

4、R1和知识图谱结合，open-r1-text2graph：开源复现DeepSeek R1的文本到图谱抽取训练方案。基于GRPO强化学习，提升模型对结构化信息的提取能力。提供完整的数据生成、监督训练到强化学习的
https://github.com/Ingvarstep/open-r1-text2graph

5、再看增强大模型推理能力的四种范式及蒸馏微调范式具体实现，https://mp.weixin.qq.com/s/EKbzBx6z0xUSyDOs5QPZ8g

总结

本文主要介绍了R1和知识图谱结合的一个粗暴结合，并围绕强化学习R1用于知识图谱信息抽取、推理大模型四种习得范式，RAG webui，RAG和deepseek部署加速方面进行了回顾。

目前大家都在尝试与 deepseek R1的结合，也陆续出来了一些有趣的工作，我们支持跟进。

但还是如此，我们需要做自己之前做的事儿。

参考文献

1、https://github.com/Ingvarstep/open-r1-text2graph

（文：老刘说NLP）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

一、R1范式用在知识图谱抽取的粗暴实现

二、技术社区昨日相关进展回顾

总结

参考文献

发表评论 取消回复

发表评论取消回复