OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
近期多模态推理模型在数学题、学科题上表现出色,但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准,首次系统性检验了MLLMs在复杂文本图像推理中的能力。
近期多模态推理模型在数学题、学科题上表现出色,但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准,首次系统性检验了MLLMs在复杂文本图像推理中的能力。
多模态统一嵌入框架UNITE通过Modal-Aware Masked Contrastive Learning解决跨模态干扰,显著提升细粒度检索、指令检索等多个任务性能。
近日,中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式发表。这一方法专注于构建更精确的 token-level 奖励信号,显著提升了大语言模型的训练效率和效果。
论文提出CMCRL框架解决放射学报告生成任务中的挑战,包括长序列文本生成、病灶定位和视觉-语言偏倚问题。通过两阶段设计有效捕捉并校正跨模态数据中的偏倚,显著提高准确率和临床可信度。
南京航空航天大学团队提出HBS-KGLLM框架,通过增强知识图谱挖掘有害信息结构化知识,实现有效探测LLMs的安全性能。该方法成功率高、成本低,并已在多款主流模型上测试表现优异。