ICCV 2025 打造首个多模态视觉匹配数据集与评测基准，填补MLLM多模态视频匹配能力评测的空白

↑ 点击蓝字关注极市平台

作者丨周义康、李祥泰

编辑丨极市平台

极市导读

武汉大学联合字节跳动推出首个多模态视觉匹配基准 MMVMBench，系统揭示现有大模型在“识别同一个物体”任务中的能力短板，并提出新方法 CoLVA，大幅提升GPT-4o等主流MLLM在视觉匹配任务中的准确率。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

Project Page：https://zhouyiks.github.io/projects/CoLVA/

Github：https://github.com/zhouyiks/CoLVA

Benchmark：https://github.com/open-compass/VLMEvalKit

E-mail：zhouyik@whu.edu.cn

亮点总结：

首次建立了面向多模态大语言模型（MLLM）视觉匹配任务的评测基准MMVMBench。

构建了高质量的MMVM数据集，包含22万组带有推理文本的视觉匹配问答对。

揭示了当前MLLMs存在的视觉匹配能力缺陷，并提供了一种简单但有效的方法来提高模型的视觉匹配能力。

本文提出评测的方法已经集成到了Open-Compass的官方测评中（https://github.com/open-compass/VLMEvalKit）。

图 1 GPT4o以及本文方法CoLVA在MMVMBench上部分案例的测试结果。错误回答标记为红色，正确选项标记为绿色。

1. 研究背景和动机

1.研究背景

近年来，多模态大语言模型在视觉感知、图文推理、图像问答和视觉定位等任务中取得了显著进展，得益于Qwen等大语言模型以及SigLIP等视觉编码器的发展。这些模型可以处理图像与文本之间的复杂交互，广泛应用于图像理解、视频分析、图文对话等场景。然而，视觉匹配（Visual Correspondence） 这一关键能力却鲜有被系统性研究。视觉匹配，即在不同图像中匹配“同一个物体”，是很多下游任务的基础，如目标跟踪、特征匹配和三维重建等。尽管MLLMs已经具备对物体外观和位置的识别能力（caption & grounding），但其在处理视觉匹配任务时仍显不足。以当前强大的MLLM GPT-4o为例，即便面对一些简单的视觉匹配问题，也常常出现明显错误。比如，图1中第一行的第三个案例查询目标（第一张图中青色轮廓标记）是一头黑色的牛，身体上有白色数字编号“1”，相对于另一头牛位于右侧；在第二张图中“1”号牛位于左侧，GPT-4o对该目标匹配错误。完成这个案例的视觉匹配可利用的最显著信息就是牛的编号，但是GPT-4o似乎没有捕捉到这一信息。图1中展示的更多的案例说明这类模型在“理解目标跨图像的一致性”方面存在本质缺陷。

2.研究动机

基于上述现象，我们的研究动机如下：

缺乏评估工具与数据集：当前没有系统性的benchmark来评估MLLMs在视觉匹配任务中的表现。因此，迫切需要构建一个专门面向视觉匹配的、具有挑战性的评估基准。

缺乏高质量监督数据：尽管MLLM具备一定的感知能力，但缺乏“如何使用这些感知信息进行匹配”的训练数据，导致它们无法有效执行该任务。也就是说，模型并不知道“看到了某些特征”之后应如何在图像间建立对应关系。

现有视觉编码器粒度不足：多数MLLM使用CLIP作为视觉编码器，但CLIP等主干缺乏对细粒度差异的建模能力，这限制了模型识别相似但不完全相同目标的能力。

为了解决上述出现的这些问题，我们：

构建了一个多图像视觉匹配评估基准（MMVMBench），覆盖15个开源视频数据集与网络视频，共1510个人工标注的样本；
提出一种自动标注流水线，构建22万条带有推理过程的匹配监督数据（MMVM Dataset）；
并基于此提出了CoLVA方法，结合对象级对比学习与指令增强，显著提升了模型的视觉匹配能力

现在可以在https://github.com/open-compass/VLMEvalKit中方便地评估你的MLLMs的视觉匹配能力。

2. MMVM Dataset & Benchmark

图 2 MMVMBench的样本。我们的MMVMBench包含1,510个人工标注的多图问答对，8种匹配线索，以及两种目标指代方式。我们从15个开源的视频数据集和其他互联网视频平台上收集的样本。

在缺乏公开评估基准和高质量监督数据的背景下，研究团队提出并构建了MMVM Dataset & Benchmark，这是首个专门评估多模态大模型视觉匹配能力的数据集，系统性填补了MLLM视觉匹配能力的评测与训练空白。

团队从15个公开的视频分割与多视图跟踪数据集中采样，结合720条来自互联网的真实视频片段，最终构建了1510条人工精标的多图像匹配任务作为评估基准（Benchmark），见图2。每个任务包含多个图像、一个查询物体、若干候选目标，模型需从中判断“是否为同一物体”。这些样本覆盖了8种典型的匹配线索（如颜色、大小、相对位置、LOGO、绑定关系等），全面考察MLLM的跨图像匹配能力。

该基准显示，当前所有主流MLLM（包括GPT-4o、Claude 3、Qwen2-VL 等）在该任务中的表现普遍不佳，准确率均未超过50%，暴露出其在“视觉匹配”上的明显短板，也凸显了MMVMBench的重要性和挑战性。

图 3 视觉匹配训练样本自动标注流水线。我们首先从各种开源数据集收集图像对，然后使用InternVL2.5-76B来生成图像间一对目标能匹配上的原因，最后我们将所有图像对，mask对，生成的匹配原因统一组织成多图多轮VQA格式。

同时，我们还设计了一套自动化标注流水线，构建了包含22万条匹配QA对话数据的训练集（MMVM Dataset），见图三。这套流程分为三步：

匹配对选择：基于现有掩码标注和Re-ID算法构建查询-候选配对；

理由生成：利用强模型（如InternVL2-76B）自动生成匹配理由，包括颜色、姿态、编号等视觉线索；

多轮对话格式构建：将匹配任务组织成“选择-解释”两轮对话，使其更贴近真实多模态交互。

3. 方法设计

为解决当前多模态大模型在视觉匹配任务中存在的根本性缺陷，研究团队提出了全新方法 CoLVA（Contrastive Learning for Visual Alignment），专为提升MLLM的视觉匹配能力而设计。该方法在结构上引入两项关键技术创新，结合新的预训练与指令格式，显著突破了现有模型视觉匹配能力的上限。

1.识别问题根源，设计针对性技术路径

团队通过PCA分析（见图4）和定量实验证明，现有MLLM存在两大核心瓶颈：

缺乏与视觉对应任务对齐的数据监督——模型虽能识别颜色/位置等低阶属性，但不知如何用它们判断是否“为同一物体”；
视觉编码粒度不足——现有主干如CLIP难以捕捉区分度高的视觉细节，候选物体特征高度相似，导致模型难以精准对齐。

图 4 InternVL2-4B和CoLVA-4B学到的目标表征的PCA可视化。目标表征通过在视觉tokens上使用目标mask进行平均池化得到。红色星星表示第一张图中的查询目标。红色圆点表示表示第二张图像中同一目标。蓝色圆点表示第二张图中的其他不匹配的目标。

2.提出CoLVA方法，从根本上提升MLLM视觉匹配能力

图 5 CoLVA的模型结构。左侧展示了如何使用对象级对比学习来训练RADIO adapter以实现同时学习到高区分度对象表征以及和MLLMs的特征空间对齐。右侧展示了如何将学习到的对象表征整合到MLLM中。我们直接将对象表征和原本的视觉tokens和文本tokens串接起来，喂给LLM来获得文本相应。

面对当前多模态大模型在视觉匹配任务上的系统性短板，研究团队提出了创新方法CoLVA（Contrastive Learning for Visual Alignment），以两个核心技术设计为支撑，从特征表达与训练机制双层面入手，显著提升MLLM对“同一物体”的理解与判断能力，见图5。

CoLVA的核心创新在于：

1️⃣ 对象级对比学习（Object-level Contrastive Learning, OCL）

CoLVA引入了一个精细视觉专家（RADIO），并与MLLM自身的视觉编码器形成对比学习框架。不同于传统图文对比学习，CoLVA将对象级语义特征作为对齐目标，使得模型能够学会区分外观极为相似的物体，提升辨别能力。

此外，为解决RADIO与主干视觉模型特征空间不一致的问题，CoLVA专门设计了预训练阶段，通过对比学习实现RADIO特征与MLLM语义空间的精确对齐，进一步增强细粒度视觉建模能力。

2️⃣ 指令增强策略（Instruction Augmentation, IA）

传统图文模型很难在标注图像中精准定位目标信息。CoLVA在微调阶段引入两种指令格式混合训练机制，包括：

常规“图像+文本描述”指令；

以及“对象级特征+文本”组合输入，支持梯度直接回传至对象视觉特征，显著提高模型在多目标精细识别中的训练效率与表现力。

3️⃣ 兼容与通用性

CoLVA被设计为通用插件式训练范式，可无缝集成至多个主流MLLM架构中，如 InternVL2、Qwen2VL、LLaVA 等，且在各类基线模型中均取得了大幅提升。例如，使用CoLVA后，InternVL2-4B在MMVMBench上准确率从17.62%跃升至45.83%，Qwen2VL-2B从15.69%跃升至47.48%，提升幅度极为显著。

4. 实验结果

表格 1 MMVMBench评测结果。CL表示Color，RP表示Relative Position，是两种最主要的匹配线索。我们在这里报告在4种不同设置下的整体精度，CL精度和RP精度。这4种设置即4个候选目标，8个候选目标，12个候选目标以及全部目标。

表格 2 CoLVA对MLLM的单图VQA能力的影响。

表格 3 CoLVA对MLLM的多图VQA能力的影响。

表格 4 CoLVA方法和MMVM数据有效性的消融实验。

表格 5 CoLVA方法在多种MLLMs上的有效性实验。

为验证所提出的MMVM数据与CoLVA方法的有效性，研究团队在多个主流多模态大模型上开展了系统性的实验评估。结果表明，CoLVA不仅显著提升视觉匹配能力，同时具备良好的泛化性与通用性，在多个关键任务上刷新性能记录。

1.MMVM Benchmark 实验结果：全面超越现有模型

在包含1510个真实视觉匹配样本的MMVMBench上，研究团队评估了30多个主流MLLM（涵盖开源与闭源模型），部分结果见表1，结果显示：

当前最强闭源模型GPT-4o准确率仅为**42.65%**，全部模型均未突破50%；
集成了CoLVA的InternVL2-4B模型准确率达到**49.80%，超越GPT-4o达7.15%，超越最强开源模型Qwen2-VL-72B达11.72%**，实现新SOTA；
CoLVA在主要匹配线索（颜色CL、相对位置RP）上的准确率也明显领先。

2.通用VQA能力无损，甚至进一步提升

CoLVA不仅强化了视觉匹配能力，而且在多个通用视觉问答（VQA）基准上表现稳定，甚至部分指标有所提升，见表2和表3：

在MMBench、MME、POPE、BLINK、NaturalBench等多个VQA基准上，CoLVA模型表现与原始模型基本一致或略有增强；
说明CoLVA是一种有增益且不削弱原始的模型理解能力补强机制。

3.消融实验与泛化性分析：方法有效且稳健

进一步的消融实验验证了CoLVA中各个组件的独立价值，见表4：

单独使用MMVM数据可将准确率从17.62%提升至32.38%；
增加对象级对比学习（OCL）与精细视觉专家（VE）后进一步提升至40.45%；
最终加入指令增强（IA）后达成最佳结果45.83%，整体提升28.21个百分点；

CoLVA还可灵活集成至多种MLLM架构（如Qwen2VL-2B、LLaVA1.5-7B等），在所有模型中均带来大幅性能提升，验证其广泛可迁移性与通用性，见表5。

5. 结论和未来工作

展望未来：从基准出发，推动MLLM走向真正“看懂”世界

研究团队指出，当前多模态大模型（MLLM）虽然在图文对齐、描述生成等任务中表现出色，但在视觉感知的根基能力上仍不完善。本研究不仅首次提出并系统评估了“视觉匹配”这一被忽视的重要能力，也借助MMVMBench明确揭示出：即使是GPT-4o这类最先进模型，在匹配两个图像中同一物体时，仍频繁出错，准确率不足50%。

这一发现具有重要意义：它提醒整个多模态研究社区，在继续追求大模型“会说话”“能理解”的同时，更应注重其“看得准”的基本功训练。为此，研究团队将MMVMBench定位为未来MLLM模型不可或缺的能力评测维度之一，类似于VQA任务在早期对图文理解的驱动作用。

展望未来，研究团队提出两大关键方向：

更密集、更细致的视觉感知能力
模型应能理解更复杂的视觉细节，如远处物体、细长结构、物体部件等，从而支撑更可靠的匹配与理解。
更具区分性的视觉推理能力
模型需能够进行实例级对比与逻辑判断，不仅要看到“相似”，更要理解“不同”，实现真正的视觉对齐与语义推理闭环。

最终目标是帮助MLLM真正具备“看清楚、认得出、说得明白”的完整多模态智能能力。

（文：极市干货）

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30