字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。

Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。

2天1k多星!BAGEL横空出世:字节跳动发布全球首个多模态全能AI,开启智能新纪元!

BAGEL 是一个开源多模态基础模型,拥有70亿活跃参数,在标准多模态理解排行榜上超越了当前顶尖开源模型,并展示了高级编辑能力及扩展至世界建模的能力。

无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext

docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。

自我进化的多智能体自动化系统EvoAgentX

酷是一款多智能体自动化系统EvoAgentX,适用于复杂AI场景如医疗诊断和电商订单处理。它能自动生成工作流并集成进化算法优化智能体行为与结构。文章还介绍了如何安装、配置和使用EvoAgentX进行任务生成及优化。