NLP之文本纠错开源大模型:兼看语音大模型总结

2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。

Dify落地知识库场景的小思考及多模态RAG结合图像信息的几种策略评估

2025年7月1日,文章介绍了多模态RAG中的文档信息增强的研究,并讨论了关于dify是否应被抛弃的思考。文章强调了多模态方法在评估企业文档理解任务上的优势,展示了多种增强方法的效果比较。同时,也指出了Dify作为工具存在的局限性,包括其处理PDF表格识别问题的能力不足和切割策略不够先进等问题。

聚焦RAG&KG&LLM&文档解析:老刘说NLP技术社区对外纳新

老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念?

2025年6月30日,北京晴天。EraRAG通过局部敏感哈希和层次化图构建解决了动态语料库的检索增强生成问题,相比RAPTOR减少了高达77.5%的图重建时间。上下文工程概念将RAG、提示词工程等整合为一个整体新词,旨在帮助LLM合理执行任务。

Deep Research现有方案技术总结:实现架构、特点对比、现存问题及未来方向

2025年6月25日,星期三的北京晴朗天气下,对DeepResearch进行技术综述,分析了80多个实现并总结其发展历程、层次化架构和技术模式等,重点关注信息完整性、隐私保护等问题,并提出研究方向。

RAG的2025趋势重点及RAG+抽取场景的来源定位问题思考

2025年6月24日,北京晴天。文章讨论了信息抽取和RAG落地中的引文生成、来源定位需求及其底层逻辑与实际案例。提及模型可能产生“幻觉”导致的误导性答案,通过引文标注来源增强可信度。此外,文章总结了2025年RAG的发展趋势,包括多模态文档解析与统一抽取的重要性。