CVPR’25 感知性能飙升50%!JarvisIR:VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气

↑ 点击蓝字 关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台

极市导读

 

JarvisIR 是首个将视觉语言模型(VLM)作为控制器的智能图像恢复系统,通过动态调度多个专家模型,有效提升了自动驾驶在恶劣天气下的感知性能,平均指标提升达 50%。该研究还构建了大规模数据集 CleanBench 并提出 MRRHF 对齐算法,解决了真实场景下数据无标签的训练难题。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/pdf/2504.04158

项目主页:https://cvpr2025-jarvisir.github.io/

Github仓库:https://github.com/LYL1015/JarvisIR

Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR

背景与动机

在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的领域差异,难以应对复杂的实际场景。

为了解决这一问题,研究团队提出了 JarvisIR —— 一个基于视觉语言模型(VLM)的智能图像恢复系统。该系统通过 VLM 作为控制器,动态调度多个专家模型来处理复杂天气下的图像退化问题,从而实现更鲁棒、更通用的图像恢复能力。

核心贡献

  1. 提出 JarvisIR 架构:首个将 VLM 作为控制器的图像恢复系统,能够根据输入图像内容和用户指令,自主规划任务顺序并选择合适的专家模型进行图像修复。
  2. 构建 CleanBench 数据集:包含 150K 合成数据 + 80K 真实世界数据,涵盖多种恶劣天气条件,支持训练与评估。
  3. 设计 MRRHF 对齐算法:结合监督微调(SFT)与基于人类反馈的人类对齐(MRRHF),提升模型在真实场景下的泛化能力和决策稳定性。
  4. 显著性能提升:在 CleanBench-Real 上平均感知指标提升 50%,优于现有所有方法。

🛠️ 方法详解

1. JarvisIR 架构设计

JarvisIR 的核心思想是将视觉语言模型(VLM)作为“大脑”,协调多个专家模型完成图像恢复任务。其工作流程如下:

  1. 任务解析:接收用户指令和输入图像,分析图像中的退化类型。
  2. 任务规划:根据图像内容和用户需求,生成最优的任务执行序列。
  3. 模型调度:依次调用对应的专家模型(如去噪、超分、去雨等)进行图像恢复。
  4. 结果整合:将各阶段的结果整合为最终输出图像,并附上解释性推理过程。

可参考论文图4理解整体流程。

2. CleanBench 数据集

CleanBench 是本文的核心训练与评估数据集,分为两个部分:

  • CleanBench-Synthetic:150K 合成数据,用于监督微调(SFT)阶段训练。
  • CleanBench-Real:80K 真实世界图像,用于 MRRHF 阶段的无监督对齐训练。

可参考论文图2理解CleanBench构建的过程。

可参考论文附录图8了解构建数据所用到的合成退化库。

该数据集涵盖了四种主要天气退化场景类型:夜景、雨天、雾天、雪天。注意每个退化场景中可能包含多种退化(比如夜晚可能是暗光、噪声、雾、低分辨率)。

📚 数据构成

每条训练样本是一个包含三个元素的三元组:

其中:

  •  :用户指令(instruction),描述希望执行的图像恢复任务;
  •  :退化图像(degraded image),即待处理的原始图像;
  •  :响应(response),包含了 Chain-of-Thought(COT)推理过程和最终选定的任务序列及模型选择。

例如:

  • 指令:“请改善这张夜晚拍摄的照片质量。”
  • 退化图像:一张夜间低光模糊照片;
  • 响应:先进行低光增强,再进行去噪,使用的模型为 Img2img-turbo 和 SCUnet

合成的退化样本。

3. 两阶段训练框架

第一阶段:监督微调(SFT)

在 JarvisIR 的整体训练流程中,监督微调(SFT)是第一阶段的核心任务。其目的是让视觉语言模型(VLM)初步掌握如何:

  • 理解用户输入的图像恢复指令;
  • 分析图像中的退化类型(如雨、雾、夜景等);
  • 规划合理的恢复任务顺序;
  • 选择正确的专家模型组合进行图像修复。

这个阶段使用的是 CleanBench 数据集中的合成数据部分(CleanBench-Synthetic),这些数据具备完整的标注信息(即已知退化类型和最优恢复路径),因此适合用于有监督学习。SFT 的训练目标是最小化以下损失函数:

其中:

  •  是第  条样本的真实响应;
  •  是对应的用户指令;
  •  是对应的退化图像;
  • $R_{<i}$ 表示当前响应前面已经生成的部分;<=”” section=””>
  •  是模型参数;
  •  是响应 token 的总数量。

这是一个典型的自回归语言建模目标,鼓励模型根据给定的上下文(图像和指令)准确预测出期望的响应。

第二阶段: 人类反馈对齐(MRRHF)

在 JarvisIR 中,人类反馈对齐(Human Feedback Alignment) 是训练过程中的关键阶段。由于真实世界图像缺乏配对标注数据,传统的监督微调(SFT)无法直接应用于 CleanBench-Real 数据集。因此,研究者提出了一种基于奖励模型的无监督对齐方法:MRRHF(Mixed-Rank Reward-based Human Feedback)

MRRHF 是 RRHF(Rank Responses to Align Human Feedback)的一种扩展,旨在通过结合离线采样与在线采样策略、引入熵正则化项,提升 VLM 在真实世界恶劣天气图像恢复任务中的稳定性、泛化能力和响应多样性。

MRRHF 的核心组成

1. 奖励建模(Reward Modeling)

MRRHF 使用多个基于 VLM 的 IQA(Image Quality Assessment)模型来构建一个统一的奖励函数:

其中:

  •  :第  个 IQA 模型对图像质量的评分;
  •  :该模型评分的历史均值与标准差;
  •  :参与评估的 IQA 模型数量(如 Q-instruct、MUSIQ、MANIQA 等)。

这个奖励函数用于衡量系统输出的图像恢复结果的质量,并作为训练信号指导 VLM 的优化。

2. 混合采样策略(Hybrid Sampling Strategy)

为了在保持性能下限的同时扩展探索空间,MRRHF 结合了两种样本生成方式:

  • 离线采样(Offline Sampling):使用 SFT 模型进行多样 beam search 生成多个候选响应。
  • 在线采样(Online Sampling):使用当前训练中的 policy model 动态生成响应。

最终将两者合并为候选响应集合 ,从而在训练过程中提供更丰富的探索路径。

3. 多任务损失函数

MRRHF 的目标是通过以下三种 loss 共同优化模型:

(1) 排名损失(Ranking Loss, )

作用:

  • 鼓励模型对高奖励响应赋予更高的概率  ,低奖励响应赋予更低的概率。
  • 通过对比不同响应的得分和模型预测概率,引导模型学习排序能力。
  • 保证模型在面对多个可能响应时,能够选出最优解。

✅ 目的:让模型学会“好响应”比“坏响应”更好。

(2) 微调损失(Fine-tuning Loss, 

作用:

  • 对于奖励最高的响应 ,强制模型学习其完整生成过程。
  • 相当于一种强化学习中的“模仿学习”,确保模型掌握最优响应的生成逻辑。

✅ 目的:让模型准确复现最高奖励的响应内容。

(3) 熵正则化损失(Entropy Regularization Loss, )

作用:

  • 增加响应的多样性,防止模型陷入局部最优,只生成重复或保守的回答。
  • 通过最大化输出分布的熵,鼓励模型探索更多合理的响应路径。

✅ 目的:增强模型的探索能力,避免过拟合单一响应模式。

总体损失函数

最终,MRRHF 的总体损失函数由三部分组成:

其中:

  •  :控制各 loss 权重的超参数(论文中设为  )。

这三部分 loss 协同工作,使得 JarvisIR 能够在没有人工标注的情况下,利用大量真实世界数据完成有效的对齐训练。

可参考论文图5理解两阶段的训练框架。

实验与结果分析

1. 决策能力对比(CleanBench-Real 验证集)

✅ 结论:JarvisIR-MRRHF 在工具决策能力上显著优于其他策略。

2. 图像恢复性能对比

✅ 结论:在所有天气场景下均优于现有 all-in-one 方法,提升显著(平均改善指标50%)。

3. Ablation Study

  • 样本生成策略对比:混合采样策略(结合离线和在线的优势)在奖励分数和响应多样性方面均表现最佳。它既能保证训练的稳定性,又能提供足够的探索空间,优于单纯的离线或在线采样。
  • 熵正则化影响:加入熵正则化能显著提升系统响应的多样性,并有助于提高奖励分数。这是因为它鼓励模型进行更广泛的探索,产生更多样化的高质量响应。
  • MRRHF 与 Vanilla RRHF 的对比: MRRHF 通过其混合样本生成和熵正则化策略,在奖励和多样性方面均显著优于 Vanilla RRHF。这表明 MRRHF 能更有效地利用人类反馈进行对齐。

技术亮点总结

  1. VLM 作为控制器:首次将视觉语言模型应用于图像恢复系统的控制中枢,具备强大的上下文理解和任务规划能力。
  2. 专家模型协同机制:多个专业模型按需调用,适应不同天气条件下的图像退化问题。
  3. 大规模真实数据集 CleanBench:填补了真实世界图像恢复数据的空白。
  4. MRRHF 对齐算法:无需人工标注,即可利用大量真实数据进行模型优化,提升泛化能力。

总结

JarvisIR 是一项具有开创性的研究成果,标志着图像恢复从单一任务向智能化、多模型协同方向迈进的重要一步。其核心价值在于:

  • 将 VLM 用于图像恢复系统的控制
  • 提出 MRRHF 对齐算法,解决真实数据无标签问题
  • 发布高质量数据集 CleanBench,推动社区发展

如果你正在研究图像恢复、视觉语言模型或多模态系统,JarvisIR 提供了一个全新的视角和实践路径,值得深入学习与应用。

参考文献

[1] JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration


(文:极市干货)

发表评论