TIP 2025 从噪声图像到精准报告:CMCRL两阶段因果框架重构医疗多模态学习

论文提出CMCRL框架解决放射学报告生成任务中的挑战,包括长序列文本生成、病灶定位和视觉-语言偏倚问题。通过两阶段设计有效捕捉并校正跨模态数据中的偏倚,显著提高准确率和临床可信度。

MonkeyOCR:华科开源高效文档解析模型,精度超越闭源大模型、速度还更快!

华中科技大学开发的MonkeyOCR文档解析模型在OmniDocBench数据集上取得显著成果,相比MinerU、Qwen2.5-VL等开源和闭源大模型,在中文内容识别方面表现出色。该模型采用结构-识别-关系(SRR)三元组方法,并基于大规模标注数据集MonkeyDoc进行训练。