3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!
近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。
近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。
微软开源GUI-Actor无坐标视觉定位工具,通过注意力机制直接识别目标区域,支持网页、桌面和移动端UI,性能媲美甚至超越传统方法。
最近发现一款名为TradingAgents的开源多智能体交易系统,通过模拟真实交易团队分工协作和双模型驱动等特性,在金融投资领域显著优于传统模型。
Dedoc是一款ISPRAS团队开源的文档提取与转换工具,支持多格式文档处理,包括Office、PDF和扫描件等,并能智能提取表格、文本格式和逻辑结构。其核心功能亮点涵盖文档逻辑结构提取、复杂表格解析以及OCR扫描件处理。
昨天晚上发布的新版本图片3.0的智能参考功能上线,支持一键修改文字、风格转换和添加元素。展示了多款可爱萌宠海报及换字案例,并提醒透明PNG图片需注意格式问题。
Agentic-Doc 是一款强大的Python库,专为从复杂文档中提取结构化数据而设计。它支持PDF、图片和URL等多种格式,并通过计算机视觉和LLM实现精准解析表格、图表、图片等信息。
阿里巴巴通义实验室的WebDancer通过创新方法解决复杂信息检索问题,包括数据合成、轨迹采样、监督微调和强化学习等阶段。它展示了显著的进步,并有望在未来拓展到更广泛的场景和技术应用中。
腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。
字节跳动开源多模态AI模型Dolphin,通过两阶段机制精准解析复杂文档,支持页面级和元素级解析,并提供在线Demo及本地部署指南。