MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。

打破多模态数学推理瓶颈:港中文MMLab发布MINT-CoT,将细粒度视觉推理链引入数学领域

港中文 MMLab 提出的新方法 MINT-CoT,通过引入‘视觉交错思维链’实现细粒度视觉与文本推理融合,在多个基准数据集上刷新 SOTA,显著提升多模态大模型在数学视觉任务中的表现。

CVPR 2025 最佳论文|Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式

VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。该模型在多个任务中的性能显著超越传统优化方法,并且推理速度达到秒级。