文档理解归档

多模态RAG前沿速读：三看SimpleDoc双线索实现思路

2025年6月20日14时作者老刘说NLP

2025年6月19日，北京晴。介绍SimpleDoc多模态RAG方案，结合视觉嵌入和LLM生成的摘要来检索相关页面，并迭代更新查询以改进答案。结果显示其在4个DocVQA数据集上表现优于基准模型。

2025年6月8日8时作者 PaperWeekly

多模态大模型在文档理解领域的性能显著，但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc，揭示了当前模型的不足，并提出改进策略。

2025年6月5日8时作者极市干货

hihu.com/p/1911718184823817009
编辑丨极市平台
极市导读
来自
阿里巴

2025年4月15日14时作者老刘说NLP

0414技术进展早报回顾，
阶段性看看进展，最近开源的工作越来越多了
。
另一个是
继续看金融RAG

2025年4月11日8时作者 GitHubStore

一款专为程序员打造的文档爬取和处理工具DevDocs开源，能缩短理解文档的时间至几个小时，提升开发效率。适用于企业软件开发者、网络爬虫、开发团队和独立黑客等。特点包括智能抓取、性能与速度以及内容处理等功能。

2025年4月2日14时作者小兵的AI视界

到文本，多模态模型正逐渐成为连接人类感知与机器理解的桥梁。今天，
我们将深入探讨一个备受瞩目的开源多

2025年2月23日8时作者开源星探

RAGFlow 是一款基于深度文档理解的开源 RAG 引擎，能从 100 多种文件格式中高效提取关键信息，并支持文本切片、模板化处理和多种数据源。它解决了大语言模型在实际应用中的文档处理难题。

2024年12月31日16时作者机器之心

华为诺亚方舟实验室提出统一多模态大模型ILLUME，仅使用约15M图文对数据实现视觉理解、生成等任务的出色表现，并采用自提升式多模态对齐策略促进理解和生成能力协同进化。