NLP之文本纠错开源大模型:兼看语音大模型总结
2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。
2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。
2025年7月1日,文章介绍了多模态RAG中的文档信息增强的研究,并讨论了关于dify是否应被抛弃的思考。文章强调了多模态方法在评估企业文档理解任务上的优势,展示了多种增强方法的效果比较。同时,也指出了Dify作为工具存在的局限性,包括其处理PDF表格识别问题的能力不足和切割策略不够先进等问题。
老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。
2025年6月30日,北京晴天。EraRAG通过局部敏感哈希和层次化图构建解决了动态语料库的检索增强生成问题,相比RAPTOR减少了高达77.5%的图重建时间。上下文工程概念将RAG、提示词工程等整合为一个整体新词,旨在帮助LLM合理执行任务。
今天是2025年6月27日,星期五,重庆,晴。文章讨论了Agent应用的搭建问题,包括其构成与核心能力、研发实际困境、稳妥和激进路线等,并涉及视觉大模型在处理文档图像时的分辨率策略。
摘要今天是2025年6月25日,星期四,北京晴天。介绍了PPT自动生成项目MultiAgentPPT的设计流程、爬虫代码及Agent的prompt,并从多智能体系统角度解析其工作原理和实现细节。
2025年6月25日,星期三的北京晴朗天气下,对DeepResearch进行技术综述,分析了80多个实现并总结其发展历程、层次化架构和技术模式等,重点关注信息完整性、隐私保护等问题,并提出研究方向。
2025年6月24日,北京晴天。文章讨论了信息抽取和RAG落地中的引文生成、来源定位需求及其底层逻辑与实际案例。提及模型可能产生“幻觉”导致的误导性答案,通过引文标注来源增强可信度。此外,文章总结了2025年RAG的发展趋势,包括多模态文档解析与统一抽取的重要性。
今天是2025年6月23日,星期一,北京晴。文章介绍了代码GraphRAG项目的基本概念和使用方法,包括切分代码、构建知识图谱以及如何通过自然语言查询这些信息等内容。
文章讨论了在文档场景下使用多模态GraphRAG提升检索性能的方法,包括实体链接和知识图谱构建等内容,并介绍了相关开源项目的实现细节。