NLP开源爱好者与践行者归档

Embedding的9点总结-从架构、数据到代表模型

2025年8月4日14时作者老刘说NLP

2025年8月4日，北京晴天，《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》技术总结，涵盖GPTE架构、数据及多模态embedding模型，重点整理9点内容。

多模态大模型在OCR生成上表现如何？多页文档理解数据集Doc-750K

2025年7月23日14时作者老刘说NLP

2025年7月23日，北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现；后者则针对多页理解问题，通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

Agent技术实践：9个MCP工程实践项目指引

2025年6月22日14时作者老刘说NLP

今天介绍9个MCP工程实践项目，包括100%本地MCP客户端、MCP驱动的RAG、金融分析师、语音代理等。每个项目都有详细的教程链接和解释。

GraphRAG提速新思路E^2GraphRAG及DeepResearch Bench评估结果

2025年6月17日14时作者老刘说NLP

今天是2025年6月16日，星期一，北京晴。文章提到了DeepResearch Bench评测和E^2GraphRAG提速思路的两个项目。DeepResearch Bench包含100个博士级别任务，评估了四种早期发布的Agent。而E^2GraphRAG提出了在索引阶段构建摘要树和实体图，并在检索阶段利用自适应检索策略来提高效率和效果。

纯Prompt提示LLM的多阶段知识图谱三元组抽取及Schema生成方案

2025年6月15日14时作者老刘说NLP

今天是2025年6月15日，星期天，北京晴朗。本文介绍了一种纯LLM驱动的知识图谱三元组及Schema提取方案，该方法源自《AutoSchemaKG: Autonomous Knowledge Graph Construction》，通过模式归纳获得实体、事件和关系的类型，核心在于大量的prompt提示来构建知识图谱，并进行了成本效益分析。