老刘归档 - 每时AI

实用工具：手写体OCR数据合成、UI代码转写及图文混排评测开源项目

2025年8月8日19时作者老刘说NLP

2025年8月8日周五，北京下雨。文章介绍了文档OCR研发的手写体数据合成项目和图文混排Benchmark，还提到了前端界面代码转写模型ScreenCoder。

2025年8月5日14时作者老刘说NLP

2025年8月5日，北京晴。本文介绍了一种新的多模态RAG方法MMRAG-DocQA，旨在解决跨页文档中的多模态关联和证据整合问题，通过层级化索引和细粒度检索策略提高问答系统的准确性和一致性。

2025年8月4日14时作者老刘说NLP

2025年8月4日，北京晴天，《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》技术总结，涵盖GPTE架构、数据及多模态embedding模型，重点整理9点内容。

2025年8月2日14时作者老刘说NLP

今天是2025年8月2日，星期六，无锡有雨。文章介绍了使用基于图表示的多模态问答方法处理电信文档中的流程图，并讨论了图像分类、图表示生成和检索优化等步骤。

2025年7月25日14时作者老刘说NLP

今天是2025年7月25日，星期五，北京有雨。文章讨论了用于知识图谱问答的多策略图检索思路ByoKG-RAG，并介绍了一些基于大模型的知识图谱问答方案。

2025年7月24日14时作者老刘说NLP

2025年7月24日，北京下雨。本文回顾了六个大模型数据合成工具，并介绍了DatasetLoom平台的功能和核心提示机制，强调了在生成多样化数据时需要考虑的主题控制、难度和长度参数。

2025年7月23日14时作者老刘说NLP

2025年7月23日，北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现；后者则针对多页理解问题，通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

2025年7月22日14时作者老刘说NLP

2025年7月22日，北京晴。文章介绍了《DeepWriter》的工作思路和设计方法，包括分层知识表示、结构化写作流程、多模态内容融合以及细粒度引用等关键点，并详细讨论了离线知识库构建与在线写作流程中的核心技术。

2025年7月21日14时作者老刘说NLP

.2,Qwen3-4B,SmolLM3-3B,DeepSeek-V3,Qwen3-235B-A22B

2025年7月17日14时作者老刘说NLP

2025年7月17日周四，文章总结了文档解析技术和多模态文档理解技术的现状和进展，包括方法对比、数据集以及代表性工作回顾等内容。