CVPR'25 感知性能飙升50%！JarvisIR：VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气

↑ 点击蓝字关注极市平台

作者丨AI生成未来

来源丨AI生成未来

编辑丨极市平台

极市导读

JarvisIR 是首个将视觉语言模型（VLM）作为控制器的智能图像恢复系统，通过动态调度多个专家模型，有效提升了自动驾驶在恶劣天气下的感知性能，平均指标提升达 50%。该研究还构建了大规模数据集 CleanBench 并提出 MRRHF 对齐算法，解决了真实场景下数据无标签的训练难题。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：https://arxiv.org/pdf/2504.04158

项目主页：https://cvpr2025-jarvisir.github.io/

Github仓库：https://github.com/LYL1015/JarvisIR

Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR

背景与动机

在自动驾驶等现实应用场景中，视觉感知系统常常受到多种天气退化（如雨、雾、夜间、雪）的影响。传统的单任务方法依赖特定先验知识，而 all-in-one 方法只能解决有限的退化组合同时又存在严重的领域差异，难以应对复杂的实际场景。

为了解决这一问题，研究团队提出了 JarvisIR —— 一个基于视觉语言模型（VLM）的智能图像恢复系统。该系统通过 VLM 作为控制器，动态调度多个专家模型来处理复杂天气下的图像退化问题，从而实现更鲁棒、更通用的图像恢复能力。

核心贡献

提出 JarvisIR 架构：首个将 VLM 作为控制器的图像恢复系统，能够根据输入图像内容和用户指令，自主规划任务顺序并选择合适的专家模型进行图像修复。
构建 CleanBench 数据集：包含 150K 合成数据 + 80K 真实世界数据，涵盖多种恶劣天气条件，支持训练与评估。
设计 MRRHF 对齐算法：结合监督微调（SFT）与基于人类反馈的人类对齐（MRRHF），提升模型在真实场景下的泛化能力和决策稳定性。
显著性能提升：在 CleanBench-Real 上平均感知指标提升 50%，优于现有所有方法。

🛠️ 方法详解

1. JarvisIR 架构设计

JarvisIR 的核心思想是将视觉语言模型（VLM）作为“大脑”，协调多个专家模型完成图像恢复任务。其工作流程如下：

任务解析：接收用户指令和输入图像，分析图像中的退化类型。
任务规划：根据图像内容和用户需求，生成最优的任务执行序列。
模型调度：依次调用对应的专家模型（如去噪、超分、去雨等）进行图像恢复。
结果整合：将各阶段的结果整合为最终输出图像，并附上解释性推理过程。

可参考论文图4理解整体流程。

2. CleanBench 数据集

CleanBench 是本文的核心训练与评估数据集，分为两个部分：

CleanBench-Synthetic：150K 合成数据，用于监督微调（SFT）阶段训练。
CleanBench-Real：80K 真实世界图像，用于 MRRHF 阶段的无监督对齐训练。

可参考论文图2理解CleanBench构建的过程。

可参考论文附录图8了解构建数据所用到的合成退化库。

该数据集涵盖了四种主要天气退化场景类型：夜景、雨天、雾天、雪天。注意每个退化场景中可能包含多种退化（比如夜晚可能是暗光、噪声、雾、低分辨率）。

📚 数据构成

每条训练样本是一个包含三个元素的三元组：

其中：

：用户指令（instruction），描述希望执行的图像恢复任务；
：退化图像（degraded image），即待处理的原始图像；
：响应（response），包含了 Chain－of－Thought（COT）推理过程和最终选定的任务序列及模型选择。

例如：

指令：“请改善这张夜晚拍摄的照片质量。”
退化图像：一张夜间低光模糊照片；
响应：先进行低光增强，再进行去噪，使用的模型为 Img2img-turbo 和 SCUnet。

合成的退化样本。

3. 两阶段训练框架

第一阶段：监督微调（SFT）

在 JarvisIR 的整体训练流程中，监督微调（SFT）是第一阶段的核心任务。其目的是让视觉语言模型（VLM）初步掌握如何：

理解用户输入的图像恢复指令；
分析图像中的退化类型（如雨、雾、夜景等）；
规划合理的恢复任务顺序；
选择正确的专家模型组合进行图像修复。

这个阶段使用的是 CleanBench 数据集中的合成数据部分（CleanBench-Synthetic），这些数据具备完整的标注信息（即已知退化类型和最优恢复路径），因此适合用于有监督学习。SFT 的训练目标是最小化以下损失函数：

其中：

是第条样本的真实响应；
是对应的用户指令；
是对应的退化图像；
$R_{<i}$ 表示当前响应前面已经生成的部分；<=”” section=””>
是模型参数；
是响应 token 的总数量。

这是一个典型的自回归语言建模目标，鼓励模型根据给定的上下文（图像和指令）准确预测出期望的响应。

第二阶段：人类反馈对齐（MRRHF）

在 JarvisIR 中，人类反馈对齐（Human Feedback Alignment） 是训练过程中的关键阶段。由于真实世界图像缺乏配对标注数据，传统的监督微调（SFT）无法直接应用于 CleanBench-Real 数据集。因此，研究者提出了一种基于奖励模型的无监督对齐方法：MRRHF（Mixed-Rank Reward-based Human Feedback）。

MRRHF 是 RRHF（Rank Responses to Align Human Feedback）的一种扩展，旨在通过结合离线采样与在线采样策略、引入熵正则化项，提升 VLM 在真实世界恶劣天气图像恢复任务中的稳定性、泛化能力和响应多样性。

MRRHF 的核心组成

1. 奖励建模（Reward Modeling）

MRRHF 使用多个基于 VLM 的 IQA（Image Quality Assessment）模型来构建一个统一的奖励函数：

其中：

：第个 IQA 模型对图像质量的评分；
：该模型评分的历史均值与标准差；
：参与评估的 IQA 模型数量（如 Q－instruct、MUSIQ、MANIQA 等）。

这个奖励函数用于衡量系统输出的图像恢复结果的质量，并作为训练信号指导 VLM 的优化。

2. 混合采样策略（Hybrid Sampling Strategy）

为了在保持性能下限的同时扩展探索空间，MRRHF 结合了两种样本生成方式：

离线采样（Offline Sampling）：使用 SFT 模型进行多样 beam search 生成多个候选响应。
在线采样（Online Sampling）：使用当前训练中的 policy model 动态生成响应。

最终将两者合并为候选响应集合，从而在训练过程中提供更丰富的探索路径。

3. 多任务损失函数

MRRHF 的目标是通过以下三种 loss 共同优化模型：

(1) 排名损失（Ranking Loss, ）

作用：

鼓励模型对高奖励响应赋予更高的概率，低奖励响应赋予更低的概率。
通过对比不同响应的得分和模型预测概率，引导模型学习排序能力。
保证模型在面对多个可能响应时，能够选出最优解。

✅ 目的：让模型学会“好响应”比“坏响应”更好。

(2) 微调损失（Fine-tuning Loss, ）

作用：

对于奖励最高的响应，强制模型学习其完整生成过程。
相当于一种强化学习中的“模仿学习”，确保模型掌握最优响应的生成逻辑。

✅ 目的：让模型准确复现最高奖励的响应内容。

(3) 熵正则化损失（Entropy Regularization Loss, ）

作用：

增加响应的多样性，防止模型陷入局部最优，只生成重复或保守的回答。
通过最大化输出分布的熵，鼓励模型探索更多合理的响应路径。

✅ 目的：增强模型的探索能力，避免过拟合单一响应模式。

总体损失函数

最终，MRRHF 的总体损失函数由三部分组成：

其中：

：控制各 loss 权重的超参数（论文中设为）。

这三部分 loss 协同工作，使得 JarvisIR 能够在没有人工标注的情况下，利用大量真实世界数据完成有效的对齐训练。

可参考论文图5理解两阶段的训练框架。

实验与结果分析

1. 决策能力对比（CleanBench-Real 验证集）

✅ 结论：JarvisIR-MRRHF 在工具决策能力上显著优于其他策略。

2. 图像恢复性能对比

✅ 结论：在所有天气场景下均优于现有 all-in-one 方法，提升显著（平均改善指标50%）。

3. Ablation Study

样本生成策略对比：混合采样策略（结合离线和在线的优势）在奖励分数和响应多样性方面均表现最佳。它既能保证训练的稳定性，又能提供足够的探索空间，优于单纯的离线或在线采样。
熵正则化影响：加入熵正则化能显著提升系统响应的多样性，并有助于提高奖励分数。这是因为它鼓励模型进行更广泛的探索，产生更多样化的高质量响应。
MRRHF 与 Vanilla RRHF 的对比： MRRHF 通过其混合样本生成和熵正则化策略，在奖励和多样性方面均显著优于 Vanilla RRHF。这表明 MRRHF 能更有效地利用人类反馈进行对齐。

技术亮点总结

VLM 作为控制器：首次将视觉语言模型应用于图像恢复系统的控制中枢，具备强大的上下文理解和任务规划能力。
专家模型协同机制：多个专业模型按需调用，适应不同天气条件下的图像退化问题。
大规模真实数据集 CleanBench：填补了真实世界图像恢复数据的空白。
MRRHF 对齐算法：无需人工标注，即可利用大量真实数据进行模型优化，提升泛化能力。

总结

JarvisIR 是一项具有开创性的研究成果，标志着图像恢复从单一任务向智能化、多模型协同方向迈进的重要一步。其核心价值在于：

将 VLM 用于图像恢复系统的控制
提出 MRRHF 对齐算法，解决真实数据无标签问题
发布高质量数据集 CleanBench，推动社区发展

如果你正在研究图像恢复、视觉语言模型或多模态系统，JarvisIR 提供了一个全新的视角和实践路径，值得深入学习与应用。

参考文献

[1] JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration

（文：极市干货）

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

CVPR’25 感知性能飙升50%！JarvisIR：VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气

背景与动机

核心贡献