3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!

近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。

解锁文档处理新高度!这个开源神器支持OCR+机器学习,超丰富的API接口,效率翻倍!

Dedoc是一款ISPRAS团队开源的文档提取与转换工具,支持多格式文档处理,包括Office、PDF和扫描件等,并能智能提取表格、文本格式和逻辑结构。其核心功能亮点涵盖文档逻辑结构提取、复杂表格解析以及OCR扫描件处理。

PDF解剖大师来了!LandingAI开源神器,这个Python库让百页文档秒变结构化数据!

Agentic-Doc 是一款强大的Python库,专为从复杂文档中提取结构化数据而设计。它支持PDF、图片和URL等多种格式,并通过计算机视觉和LLM实现精准解析表格、图表、图片等信息。

突破传统检索瓶颈!阿里通义实验室发布 WebDancer,开启多步推理智能体新范式!

阿里巴巴通义实验室的WebDancer通过创新方法解决复杂信息检索问题,包括数据合成、轨迹采样、监督微调和强化学习等阶段。它展示了显著的进步,并有望在未来拓展到更广泛的场景和技术应用中。

腾讯混元开源新作!超强的音频驱动数字人生成模型,支持多角色、多风格及口型与表情同步!

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。