35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板

多模态大模型在文档理解领域的性能显著,但现有基准存在真实场景挑战。字节跳动联合华中科技大学发布首个真实世界文档理解基准数据集WildDoc,揭示了当前模型的不足,并提出改进策略。

一款专为程序员打造的文档爬取和处理工具:DevDocs,开源了!

一款专为程序员打造的文档爬取和处理工具DevDocs开源,能缩短理解文档的时间至几个小时,提升开发效率。适用于企业软件开发者、网络爬虫、开发团队和独立黑客等。特点包括智能抓取、性能与速度以及内容处理等功能。

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

华为诺亚方舟实验室提出统一多模态大模型ILLUME,仅使用约15M图文对数据实现视觉理解、生成等任务的出色表现,并采用自提升式多模态对齐策略促进理解和生成能力协同进化。