再看大模型数据合成开源工具–DataFlow及自然场景文档解析评估问题
2025年7月4日,北京晴。文章介绍了数据合成工具Easy Dataset和DataFlow,后者支持多种数据源的解析与处理,并涵盖纯文本、强推理等任务。此外,探讨了自然场景文档解析评估问题,强调WildDoc数据集的重要性及其在现实世界扭曲下的表现。
2025年7月4日,北京晴。文章介绍了数据合成工具Easy Dataset和DataFlow,后者支持多种数据源的解析与处理,并涵盖纯文本、强推理等任务。此外,探讨了自然场景文档解析评估问题,强调WildDoc数据集的重要性及其在现实世界扭曲下的表现。
今天是2025年5月6日,星期二,北京晴。文章介绍了两个项目:一是Deepresearch变体之公司报告自动生成company-research-agent的实现拆解,二是多模态文档大模型PP-DOCBEE的数据合成策略。前者着重于工程设计和流程细节,后者则关注数据合成的具体方法和技术。