MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!
华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。
华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。
同济大学提出FaceShot,打破传统肖像动画局限,使非人类角色如表情包、玩具等也能’开口说话’。通过语义引导关键点匹配和坐标系建模动作变换,实现了高精度的动作迁移和身份保持。