Embedding的9点总结-从架构、数据到代表模型
2025年8月4日,北京晴天,《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》技术总结,涵盖GPTE架构、数据及多模态embedding模型,重点整理9点内容。
2025年8月4日,北京晴天,《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》技术总结,涵盖GPTE架构、数据及多模态embedding模型,重点整理9点内容。
2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。
今天是2025年6月16日,星期一,北京晴。文章提到了DeepResearch Bench评测和E^2GraphRAG提速思路的两个项目。DeepResearch Bench包含100个博士级别任务,评估了四种早期发布的Agent。而E^2GraphRAG提出了在索引阶段构建摘要树和实体图,并在检索阶段利用自适应检索策略来提高效率和效果。
今天是2025年6月15日,星期天,北京晴朗。本文介绍了一种纯LLM驱动的知识图谱三元组及Schema提取方案,该方法源自《AutoSchemaKG: Autonomous Knowledge Graph Construction》,通过模式归纳获得实体、事件和关系的类型,核心在于大量的prompt提示来构建知识图谱,并进行了成本效益分析。
2025年5月24日周六,北京晴天。本文讨论了GraphRAG的两个问题和大模型开源生态全景图的主要研发工具。GraphRAG技术适用于特定场景而非特定领域;而信息抽取任务更适合专门的任务模型。此外,总结期的大模型开源生态强调关键技术和代表项目。
2025年4月19日,北京晴天。关于多模态文档RAG系统的文章介绍了其在处理文档时的优势,如保留布局结构、表格完整性及视觉元素等,并分享了开源框架demo和AI搜索案例的实现方式。LAYRA框架支持PDF批量上传和解析功能,而ReZero通过强化学习优化LLM搜索性能。
老刘说NLP技术社区致力于通过早报、在线交流报告和专题分享等方式,围绕大模型、RAG、文档智能和知识图谱等主题,推动技术创新与交流。
2025年3月17日的文章介绍了RAG相关进展的三方面内容:推理模型在机器翻译中的应用、量化文本分块的有效性方法,以及通过引入层级结构解决局部信息与全局信息间的差距问题。