
极市导读
本文深入剖析了DINO-R1如何将大语言模型中的强化学习思想引入视觉基础模型,通过GRQO训练策略显著提升了视觉推理与对齐能力,为复杂场景下的目标检测和视觉提示任务提供了更优的解决方案。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
导读
在开始今天的分享之前,我们不妨先思考一个问题:为什么大语言模型,如 GPT 系列、DeepSeek 等,在数学推理、代码生成等任务中能够展现出强大的泛化能力和对人类意图的良好对齐?除了依赖海量高质量的数据和强大的预训练机制外,基于强化学习的人类反馈优化(如 RLHF)也被广泛认为是提升模型对齐能力的关键环节之一。
近年来,像 GRPO[1] 这样的新方法也在探索更稳定、高效的优化路径,为这一方向提供了新的思路。这些方法能够有效地“激励”模型生成更符合期望、更高质量的输出。
那么,视觉模型,尤其是那些需要进行复杂场景理解和目标检测的视觉基础模型(VFMs),能否也借鉴这种“激励式”学习,来提升自身的“视觉推理”能力呢?
这正是 DINO-R1[2] 这篇论文试图回答的核心问题。这篇工作确实在视觉基础模型的推理能力探索上迈出了有趣的一步,试图将语言模型中被验证有效的“激励式”学习思想迁移到视觉领域。
接下来,我将结合我的理解,带大家一步步深入这篇论文,看看 DINO-R1 是如何工作的,以及它为什么有效。
视觉模型的“推理”困境与视觉提示的挑战

与语言模型处理文本不同,视觉模型面对的是像素构成的图像,需要理解其中的物体、关系和场景。
传统的视觉模型大多依赖于有监督学习范式,在预定义的类别上进行训练,或者采用自监督学习目标。这些方法在很多任务上取得了成功,但在处理新颖、模糊或高方差的真实世界场景时,其推理和泛化能力往往受限。
论文特别提到了视觉提示 (visual prompting) 这一新兴且重要的场景。想象一下,我们不再用文本描述去指定检测目标,而是直接在图像上框出一些“模板”(visual exemplars),让模型去理解并检测出其他类似的物体。
然而,视觉提示的训练也极具挑战性:
-
1. 高方差性:同一个物体,在不同图像、不同光照、不同角度下的视觉呈现(即“提示”)可能千差万别。模型需要从这些形态各异的提示中学习到本质特征。 -
2. 泛化性要求高:模型不仅要能处理训练时见过的提示类型,更要能泛化到未见过的提示和物体类别上。 -
3. 对齐难度大:如何让模型的预测与给定的视觉提示精确对齐,也是一个难题。
传统的监督微调在面对这些挑战时,往往显得力不从心,容易出现收敛不稳定、泛化能力差、对齐效果不佳等问题。
灵感来源:语言模型的强化学习思路 GRPO
既然 SFT 有其局限性,研究人员自然会想到,能否从语言模型成功的强化学习微调经验中汲取灵感?GRPO 便是一个很好的案例。
GRPO的核心思想是通过比较一组候选输出相对于平均水平的优势来计算奖励,从而指导模型的优化。然而,直接将语言模型的 RL 方法套用到视觉模型上,会遇到不小的麻烦。例如:
1. 输出形式不同:GRPO 通常假设模型是一个概率生成器,可以从中采样得到不同的输出(例如,不同的文本序列)。而视觉模型(如目标检测器)通常产生的是确定性的、结构化的预测(例如,一堆边界框和类别标签)。 2. 正则化方式不同:GRPO 中的 KL 正则化通常作用于词元级别的输出分布,这在视觉结构化预测中难以直接迁移。
DINO-R1 的工作,正是在克服这些困难,将类似GRPO的“激励式”学习思想巧妙地适配到了视觉基础模型中。
DINO-R1 的核心:VIS-G-DINO 与 GRQO

DINO-R1 建立在 Grounding-DINO[3] 的基础上,这是一个强大的开放词汇目标检测器,能够根据自由文本输入来检测图像中的任意物体。
作者首先将 Grounding-DINO
进行扩展以支持视觉提示,称之为VIS-G-DINO。这涉及到几个关键改动:
-
• **视觉提示编码器 (Visual Prompt Encoder)**:将用户在参考图像上指定的边界框(视觉提示)编码成特征。 -
• **视觉引导的查询选择 (Visual-guided Query Selection)**:不同于 Grounding-DINO 使用文本引导查询,VIS-G-DINO 使用视觉提示的特征来引导模型关注图像中的相关区域。
而真正的“灵魂”在于论文提出的GRQO (Group Relative Query Optimization) 训练策略。这是一种新颖的、针对视觉领域的强化学习式训练范式,包含两大核心组件:
查询级别的相对奖励
在 DETR[4] 类型的检测器(如DINO[5])中,模型会生成一系列查询(queries),每个查询负责预测一个潜在物体。
传统的监督方式(如一对一的匈牙利匹配)只对一小部分匹配成功的查询进行有效监督,大部分查询的潜力没有被充分挖掘,导致监督信号稀疏。
GRQO 的核心思想是为每一个查询都计算一个奖励值。
具体来说,对于每个查询的预测结果(类别、边界框),计算它与图像中所有 GT 的匹配代价(代价越低,匹配越好)。这个代价综合了分类损失和定位损失(如L1 loss, GIoU loss)。
然后,取该查询与所有真实物体匹配代价中的最小值,其相反数(或倒数)就作为该查询的原始奖励。
更进一步,GRQO 在一个样本(一张图片)内的所有查询构成一个“组”(group)。计算这个组内所有查询奖励的均值和标准差。
最后,再将每个查询的原始奖励进行归一化,得到相对优势 (relative advantage) 。这个相对优势作为最终的奖励信号,驱动模型优化。
那么 GRPO 为什么有效呢,个人认为有两点重要原因:
-
• 密集监督:所有查询都得到了反馈,能更充分地学习。 -
• 鲁棒性:相对奖励关注的是查询在当前“组”内的相对好坏,而不是绝对的奖励值。这使得学习信号更稳定,鼓励所有查询都努力变得比“平均水平”更好,形成一种内部竞争和共同进步的态势。这与GRPO在语言模型中比较不同输出序列的思路有异曲同工之妙。
KL 散度正则化
由于视觉提示的多样性和复杂性,模型在训练过程中可能会出现“分布漂移”,即模型的预测分布在不同迭代步骤间剧烈波动,导致训练不稳定,甚至遗忘之前学到的知识(灾难性遗忘)。
GRQO 中引入了一个KL散度正则化项,作用于**物体性概率分布 (objectness probability distribution)**。
这个分布可以理解为模型对于图像中各个区域(token)与当前视觉提示相关联的置信度。具体地,模型当前的物体性分布需要与一个参考模型 (reference model) 的分布保持接近。【注:参考模型可以是训练早期的一个“冻结”版本】
通过这种方式,KL 正则化约束了模型更新的“步调”,鼓励当前模型不要离参考模型“太远”。这有助于稳定学习动态,让模型在逐步吸收多样化视觉提示的同时,保留已经学到的通用知识,从而提升泛化能力。
最后,再将查询级别的相对奖励和KL散度正则化结合起来,再加上标准的检测损失(如focal loss, L1 loss, GIoU loss)和对比损失(用于对齐视觉提示和语义概念),就构成了 DINO-R1 的最终训练目标。
DINO-R1 为何能“激励”推理能力?

从论文的实验结果来看,DINO-R1在COCO、LVIS和ODinW等多个数据集上的零样本和微调设置下,均显著优于传统的SFT基线。特别是在更具挑战性的LVIS(包含许多罕见类别)和ODinW(包含多种真实世界领域)数据集上,DINO-R1展现了更强的泛化能力。因此,笔者总结了 GRQO 有效提升视觉推理能力的三个特性:
1. 更丰富的学习信号:通过查询级别的相对奖励,模型不再仅仅学习“正确答案是什么”,而是学会了比较和评估不同“候选答案”(即不同查询的预测)的优劣。这种“比较中学习”的方式,本身就带有一定的推理意味。模型需要理解视觉提示的深层语义,才能判断哪些查询与提示更相关、预测更准确。 2. 对高方差输入的适应性:KL正则化确保了模型在面对千变万化的视觉提示时,能够保持学习的稳定性,逐步消化吸收这些信息,而不是被“带偏”或“搞糊涂”。这种在复杂多变环境中保持认知一致性的能力,是推理的重要基础。 3. 提升查询的表达能力:通过激励所有查询都向更好的方向优化,GRQO实际上是在提升每个查询捕捉和表达物体语义信息的能力。更“聪明”的查询,自然能更好地支持后续的推理和决策。

图3的定性比较结果也很有说服力。SFT方法在处理一些有难度的视觉提示时,容易出现漏检或误检,反映了其查询表达能力有限,以及与视觉提示对齐不佳。
而 GRQO 训练的 DINO-R1 则能产出更准确和完整的检测结果,更好地与提示的语义对齐。
这表明 GRQO 确实增强了模型在视觉提示下的查询推理和鲁棒性。

论文中的消融实验也清晰地表明,查询奖励模块和KL正则化模块各自都对性能有贡献,两者结合能达到最佳效果。
思考与展望
DINO-R1 为我们展示了一种将强化学习思想应用于视觉基础模型以提升其推理能力的有效途径。GRQO 的核心机制——查询级别的相对奖励和KL正则化——不仅具有创新性,也具有一定的普适性和启发意义。它引导模型从稀疏的、实例级别的监督转向密集的、群体感知的优化,这对于处理复杂视觉任务,特别是需要深度理解和泛化能力的场景,可能是一个重要的发展方向。
当然,正如论文所说,DINO-R1主要关注优化策略,其视觉提示编码器的设计相对简单。未来可以探索更先进的视觉提示编码结构,将 DINO-R1 扩展到更具挑战性的数据集和任务上,例如指代表达理解、检索增强检测、多轮视觉推理等。
总而言之,DINO-R1 的探索非常有价值。它让我们看到,通过借鉴 LLMs 的成功经验并加以适配,视觉模型在“推理”这条路上也能走得更远。这不仅仅是模型性能的提升,更是对视觉模型学习范式的一次有益探索,为未来构建更智能、更通用的视觉系统提供了新的思路。
希望这次解读能帮助大家更好地理解DINO-R1这篇工作。在我看来,这种跨领域的思想碰撞和借鉴,正是推动AI不断进步的重要驱动力之一。
引用链接
[1]
GRPO: https://arxiv.org/pdf/2402.03300[2]
DINO-R1: https://arxiv.org/abs/2505.24025[3]
Grounding-DINO: https://arxiv.org/abs/2303.05499[4]
DETR: https://arxiv.org/abs/2005.12872[5]
DINO: https://arxiv.org/abs/2203.03605
(文:极市干货)