图像超分辨率是计算机视觉中的一个基础任务,其目标是从低分辨率图像中重建出高分辨率图像。这一技术在多种低级视觉任务中扮演着重要角色,包括去模糊、去雾、去雨和低光照增强等。
传统的方法通常假设在训练过程中已知合成退化,这限制了它们在现实世界中复杂、异构和不可预测的退化情况下的泛化能力。
为了解决这些难题,德克萨斯A&M大学、斯坦福大学、加州理工学院等研究人员联合推出了4K Agent,通过其独创的多智能体架构,能够处理各种类型的图像,无论输入的退化程度或领域如何,都能将低分辨率图像提升至4K高清分辨率,同时保持图像的细节和质量。

4K Agent由多个智能体构成,能够自动处理各种复杂的图像恢复任务:首先,Profiling模块作为系统的定制化核心,它允许用户根据具体的应用场景和需求来配置系统的行为。这一模块的作用类似于一个系统提示,用户可以通过选择不同的配置文件来调整4K Agent的工作方式。
例如,用户可以选择优先考虑图像的保真度,或者更注重感知质量,甚至可以指定特定的恢复任务,如去噪、去模糊或超分辨率等。这种高度的可配置性使得4KAgent能够灵活适应各种复杂的图像恢复需求,而无需进行额外的训练。

紧接着是感知智能体它是4KAgent的“大脑”,负责对输入图像进行全面的分析。感知智能体通过调用一系列先进的图像质量评估工具,对输入图像进行多维度的质量评估。这些评估涵盖了噪声、运动模糊、焦外模糊、雾霾、雨滴以及JPEG压缩伪影等多种可能的退化类型。
基于这些详细的评估结果,感知智能体利用视觉语言模型(VLM)和图像质量评估专家的知识,生成一个详细的恢复计划。这个计划不仅包含了图像中存在的退化类型,还明确了需要执行的恢复任务序列,为恢复智能体提供了明确的指导。感知智能体的作用是确保恢复智能体能够根据输入图像的具体情况,采取最合适的恢复策略,从而实现最佳的恢复效果。
恢复智能体是4KAgent的“四肢”,主要负责根据感知智能体制定的恢复计划,逐步恢复图像的质量。恢复智能体采用了一种独特的递归执行–反思–回滚机制,通过质量驱动的混合专家策略,从多个恢复工具中选择最优的输出结果。
在每一步恢复过程中,恢复智能体都会计算每个工具的输出质量,并根据质量评分选择质量最高的结果作为当前步骤的输出。如果某个步骤的恢复结果质量低于预设的阈值,系统将激活回滚机制,重新调整恢复计划,并尝试其他恢复策略。这种机制确保了恢复过程的灵活性和鲁棒性,使得4KAgent能够在面对复杂的图像退化时,依然能够生成高质量的恢复结果。

此外,4KAgent还特别引入了面部恢复管道,专门用于提升图像中面部区域的细节和质量。面部区域在图像中具有重要的视觉和语义意义,但传统的超分辨率方法在处理严重退化的面部图像时,往往难以保持面部的身份一致性和自然的皮肤纹理。
4KAgent通过面部恢复管道,能够显著增强面部区域的细节,同时保持整体图像的协调性和一致性。这一管道的引入,使得4KAgent在处理包含面部的图像时,能够生成更自然、更详细的面部特征,极大地提升了图像的视觉质量。
4KAgent在多个领域的测试中表现出色,涵盖了自然图像、肖像照片、AI生成内容、卫星图像、荧光显微镜图像以及医学图像等多种类型。

在自然图像超分辨率任务中,4KAgent在多个基准数据集上取得了新的最高水平。例如,在Set5、Set14、B100、Urban100和Manga109等经典超分辨率数据集上,4KAgent在保真度PSNR、SSIM和感知质量NIQE、MUSIQ、MANIQA等指标上均表现出色。
在真实世界图像超分辨率任务中,4KAgent在RealSR和DrealSR数据集上取得了显著的性能提升。与现有的真实世界图像超分辨率方法相比,4KAgent在感知质量指标上表现更为出色,同时在保真度指标上也保持了竞争力。特别是在处理复杂的现实世界退化时,4KAgent能够生成更清晰、更逼真的细节,例如在服装纹理和数字标识上表现出色。
(文:AIGC开放社区)