无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext

docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。

告别OCR!无需OCR的开源文档提取神器:DocExt,VLM驱动,安全高效!

Docext 是一个基于视觉语言模型的文档结构化信息提取工具,支持发票、护照等敏感文档处理。它通过本地部署确保数据隐私,并提供自定义字段和表格提取功能,适用于多种场景如发票管理、证件录入等。

英伟达开源「描述一切」模型,拿下7个基准SOTA

研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

新智元报道
编辑:LRST
EgoNormia基准用于评估视觉语言模型在规范推理方面的能力,结果显示当前最先进的模型仍远不如人类。论文提出了三个子任务并分析了1853个视频数据集中的规范决策问题。