再看大模型数据合成开源工具–DataFlow及自然场景文档解析评估问题

今天是2025年7月4日，星期五，北京，晴

我们继续来看数据合成的话题，之前在《大模型微调数据生成工具Easy Dataset及KBLaM知识注入框架评析》（https://mp.weixin.qq.com/s/0PUMbuiyXPUIXunMuH-otw）中有介绍过，Easy Dataset(https://github.com/ConardLi/easy-dataset)

为大模型微调数据集而设计的项目，提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。社区成员有测试过，还不错，具体说明说明文档在：https://rncg5jvpme.feishu.cn/docx/IRuad1eUIo8qLoxxwAGcZvqJnDb?302from=wiki。

陆陆续续的数据合成工具也越来越多，也更为体系化，支持的任务也越来越多，看一个更为系统化的项目，DataFlow(https://github.com/OpenDCAI/DataFlow)，做个记录。

另外，继续看文档解析这个场景上，看看自然场景的文档解析评估，有一个评估数据集，也有一个评估结论。

一、大模型训练多任务数据合成项目DataFlow

大模型数据工程进展，DataFlow，支持多种数据源（PDF、文本、低质量问答）的解析与处理，DataFlow: A Data-centric AI system for data preparation and training，https://github.com/OpenDCAI/DataFlow，感兴趣的可以关注，这是数据合成方面的工具，说明文档在https://opendcai.github.io/DataFlow-Doc/zh/guide/。

1、有哪些功能？

支持的任务包括纯文本训练合成、强推理数据合成、Text-to-SQL数据合成、Agentic RAG数据合成流程等。

其中：

1）纯文本数据处理不同格式的文本信息，包括预训练文本和指令微调格式文本。从大规模纯文本（多为网络爬取）中挖掘问答对，用于监督微调和强化学习训练。

2）强推理数据合成的核心目标是通过数学问答数据的合成与处理，扩展现有数据集的规模和多样性，增强已有问答对，添加长链式推理（Chain-of-Thought）、类别标注、难度估计。

具体的：问题处理：过滤非数学问题、合成新问题、验证问题正确性、进行难度评分和类别分类；答案生成与处理：根据问题的标准答案或模型生成的答案进行处理，包括格式过滤、长度过滤和正确性验证等；数据去重：对生成的问答数据进行去重，确保数据集的质量。

3）Text-to-SQL数据合成，通过清洗和扩充现有的Text-to-SQL数据，为每个样本生成包含训练提示词（prompt）和长链推理过程（chain-of-thought）的高质量问答数据，将自然语言问题转化为 SQL 查询，辅以解释、思维链推理和数据库结构上下文信息。

4）Agentic RAG ，端到端的框架，基于强化学习的 Agentic RAG 训练。从提供的文本内容中生成高质量的问题和答案对。

2、如何评估有效性

其实，更为重要的还是如何验证这类工具的有效性问题，最好的方式就是消融实验，例如：

Bird数据集上使用DataFlow-Text2SQL流程构建数据，并分别通过监督微调（SFT）与强化学习（RL）对Qwen2.5-Coder-14B模型进进行训练，然后看效果：

二、自然场景的文档解析评估问题

现在多模态大模型做文档解析的工作越来越多，我们已经做个多个介绍，但其更多的还是针对标准印刷体文档。对于拍照版本的，其实从layout以及解析等任务看，都会存在一些问题，例如下面这个图。

在未矫正前，直接进行布局检测，会发生错乱。

所以，这自然会出来一个问题，就是评估自然环境下文档理解能力，现有的DocVQA和ChartQA 等主流基准测试主要涵盖扫描文档或者印刷文档，无法充分反映现实世界中各种场景（例如光照变化和物理变形）所带来的复杂挑战。

那么，怎么评估？关键还是这个评估数据怎么做？

可看最近的一个工作《WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild?》，https://arxiv.org/pdf/2505.11015，对应的地址在：https://bytedance.github.io/WildDoc/，https://huggingface.co/datasets/ByteDance/WildDoc，https://github.com/bytedance/WildDoc，https://bytedance.github.io/WildDoc/#leaderboard，https://bytedance.github.io/WildDoc/#examples

论文理论本身价值不大，重点还是这份数据。

1、具体如何实现？

在具体实现上，靠虑到日常生活中遇到的各种场景，选择了五个关键因素：环境、照明、视图、失真、效果。

2、实际效果如何？

结果表明，当面对常见的现实世界扭曲（例如皱纹、弯曲和折痕）影响的文档时，MLLM 的性能会显著下降，具体的指标变化，如下图所示：

其实这是个很有趣的话题，是先矫正，图像增强，然后变成标准文档解析，还是直接让 vllm 做处理，都是值得探索的方向。

参考文献

1、https://github.com/OpenDCAI/DataFlow

2、https://arxiv.org/pdf/2505.11015

（文：老刘说NLP）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

一、大模型训练多任务数据合成项目DataFlow

二、自然场景的文档解析评估问题

参考文献

发表评论 取消回复

发表评论取消回复