当前位置: 首页 > news >正文

Image fusion meets deep learning: A survey and perspective译文

摘要

图像融合是指从不同的源图像中提取和组合最有意义的信息,旨在生成一个更有信息量和有利于后续应用的单图像。深度学习的发展极大地推动了图像融合的发展,而神经网络强大的特征提取和重建能力使融合结果充满希望。最近,几种最新的深度学习技术使图像融合爆炸,例如生成对抗网络、自编码器等。然而,缺乏对不同融合场景的最新深度学习方法的全面审查和分析。为此,在本次调查中,我们首先介绍了图像融合的概念,并从采用的深度架构和融合场景的角度对方法进行了分类。然后,我们回顾了深度学习在各种类型的图像融合场景中的最新应用,包括数字摄影图像融合、多模态图像融合和锐化融合。随后,对特定融合任务中的一些代表性方法进行了定性和定量的评估。此外,我们简要介绍了图像融合的几种典型应用,包括摄影可视化、RGBT目标跟踪、医学诊断和遥感监测。最后,我们提供了结论,强调了图像融合的挑战,并展望了潜在的未来研究方向。

1.介绍

由于硬件设备的理论和技术限制,由单个传感器或单一拍摄设置下捕获的图像无法有效和全面地描述成像场景[1]。自然地,图像融合能够将不同源图像中的有意义的信息结合起来,生成一个包含更丰富信息的图像,更有利于后续应用。[2]由于融合图像的优良特性,图像融合作为一种图像增强方法已被广泛应用于许多领域,如摄影可视化[3]对象跟踪[4]医学诊断[5]和遥感监测[6].

在深度学习流行之前,图像融合已经得到了深入的研究。实现图像融合的早期方法采用相关的数学变换,在空间域或变换域中手动分析活动水平并设计融合规则,称为传统融合方法【7-10】。典型的传统融合方法包括基于多尺度变换的方法[11]稀疏表示方法[12]基于子空间的方法[13]基于显著性的方法[14]基于总变差的方法[15]等。然而,这些方法的局限性有

变得越来越明显。一方面,为了确保后续特征融合的可行性,传统方法被迫对不同源图像采用相同的变换来提取特征。然而,这种操作没有考虑到源图像的特征差异,这可能会导致提取的特征表达性差。另一方面,传统的特征融合策略非常粗糙,融合性能非常有限。将深度学习引入图像融合的动机是克服传统方法的这些局限性【1,16,17】。首先,基于深度学习的方法可以使用不同的网络分支来实现特征提取的差异化,从而获得更针对性的特征。其次,基于深度学习的方法可以在精心设计的损失函数指导下学习更合理的特征融合策略,从而实现自适应特征融合。得益于这些优势,深度学习在图像融合领域取得了巨大的进步,性能远远超过了传统方法。

从实现图像融合的角度来看,现有的基于深度学习的融合方法致力于解决图像融合中的一些或全部三个子问题,即特征提取、特征融合和图像重建。就采用的深度学习架构中,这些基于深度学习的融合策略可以分为基于自编码器(AE)的、基于传统卷积神经网络(CNN)的以及基于生成对抗网络(GAN)的方法。AE方法通常预训练一个自编码器,然后使用训练的自编码器实现特征提取和图像重建,同时根据传统融合规则实现中间特征融合[18],如图1(a)所示。例如,DenseFuse[19]是著名的基于AE的方法之一,它在 MS-COCO数据集上训练编码器和解码器[20],并采用加法和l1范数融合策略。对于CNN方法,它们通常以两种不同的形式将卷积神经网络引入图像融合中。一种是通过使用精心设计的损失函数和网络结构实现特征提取、特征融合和图像重建的端到端。[21],如图1(b)所示。端到端CNN 方法的一种代表性工作是 PMGI[16],提出梯度和强度的比例维护损失以指导网络直接生成融合图像。另一种是采用训练的CNN来制定融合规则,而特征提取和图像重建则使用传统方法,[22]如图所示,1(c)。例如,Liu等人。[23]采用CNN 生成融合权重,而图像分解和重建由拉普拉斯金字塔实现。GAN方法依赖于生成器和判别器之间的对抗游戏来估计目标的概率分布,可以隐式地共同完成特征提取、特征融合和图像重建,如图1(d)所示。FusionGAN 是基于 GAN 的图像融合的先驱,它建立了融合图像和可见图像之间的对抗游戏,以进一步丰富融合图像中的纹理细节。由于各种图像融合任务之间存在显著差异,这些方法在不同融合场景中的实现是不同的。因此,根据图像融合任务的类别来回顾基于深度学习的融合方法是适当的

通常,图像融合场景可以分为三类: 根据融合目标和源图像的成像差异进行分类,如图2所示。

(i)数字摄影图像融合。由于数字成像设备的性能限制,传感器无法在单个设置下完全表征成像场景中的信息。例如,数字摄影产生的图像仅能承受有限的照明变化,并具有预定义的景深。在这个背景下,作为数字摄影图像融合的典型任务,多曝光图像融合和多焦点图像融合可以将不同设置下捕获的图像合并,以产生具有高动态范围和完全清晰度的结果。

 (ii) 多模态图像融合。由于成像原理的限制,单一传感器只能捕捉场景信息的一部分。多模态图像融合结合了多个传感器获取的图像中最显著的信息,以实现对场景的有效描述。代表性的多模态图像融合任务包括红外与可见光图像融合以及医学图像融合。

(iii) 锐化融合。在保证信噪比的前提下,光谱/滤波器与瞬时视场(IFOV)之间存在一定的矛盾。换句话说,没有传感器能够同时捕捉具有高空间分辨率和高光谱分辨率的图像。锐化融合致力于融合不同空间/光谱分辨率的图像,以生成所需的高空间分辨率和高光谱分辨率的结果。典型的锐化融合包括多光谱(MS)锐化和高光谱锐化。从源图像成像的角度来看,锐化融合也属于多模态图像融合。然而,从融合目标来看,锐化融合比上述多模态图像融合要求更高的光谱/空间保真度,带来了直接的分辨率提升。因此,锐化融合被单独讨论为一个类别。

本工作的动机如下。一方面,现有的综述主要集中在特定的融合任务上,很少有工作全面回顾多个图像融合场景中的最新技术[26–30]。例如,[2]仅调查了红外与可见光图像融合方法的发展,而[31]仅提供了多焦点图像融合方法的综述。此外,这些工作更多地关注传统方法,对基于深度学习的方法的综述并不全面[32–35]。另一方面,在过去几年中,由于深度学习的推动,图像融合技术得到了爆炸性的发展,对深度融合方法的研究进入了新的阶段。然而,现有的综述[36]错过了最新的深度融合方法,如基于生成对抗网络(GAN)和基于自编码器(AE)的方法。为此,我们提出了一个全面的综述,用于最新使用深度学习在各种类型图像融合场景中的应用,这可以帮助相关研究人员和技术人员更好地理解深度融合方法当前的发展状况。这项调查的整体框架如图3所示。特别是,首先根据三种图像融合场景类别,即数字摄影图像融合、多模态图像融合和锐化融合,讨论了代表性的深度学习方法。然后,我们对每个融合任务中代表性的基于深度学习的方法进行了简要评估。随后,介绍了图像融合的一些典型应用,即摄影可视化、RGBT,物体跟踪、医疗诊断以及遥感监测。

最后,我们总结了这项调查,并结合图像融合中存在的挑战,对未来研究提出了一些展望。

2. 方法回顾

2.1. 数码摄影图像融合

数字成像设备首先使用光学镜头捕捉反射的可见光,然后采用数字模块,如CCD和CMOS,来记录场景信息。一方面,由于光学镜头受到景深的限制,通常无法同时聚焦所有物体。另一方面,这些数字模块由于动态范围有限,无法承受过大的成像曝光差异。数字摄影图像融合是解决这些挑战的一个好方法,它结合了在不同拍摄设置下捕捉的多张图像,生成具有高动态范围的清晰图像。因此,衍生出了两种典型的数字摄影图像融合任务,即多曝光图像融合和多焦点图像融合。

2.1.1. 多曝光图像融合

成像场景中不同区域的光照变化通常很大。由于成像设备的技术限制,传感器捕获的图像通常具有非常有限的曝光动态范围[37]。换句话说,在单一拍摄设置下拍摄的图像会因为过度曝光/曝光不足而丢失场景信息。多曝光图像融合是将不同曝光度的图像的有效信息结合起来,产生具有适当曝光度和丰富成像信息的结果。实现多曝光融合的主要方法包括CNN和GAN方法。

一些CNN方法直接使用训练好的网络从不同曝光度的源图像中提取特征,然后根据特征图的显著性确定相应像素位置的重要性,以生成融合权重图[38]。最终的融合结果是根据获得的融合权重图直接对源图像进行加权生成的。值得注意的是,特征图的显著性并不一定反映源图像信息的有效性,这意味着可能会得到令人失望的结果。其他一些CNN方法直接在多曝光数据上学习,动态完成特征提取、特征融合和图像重建,这通常遵循两种技术路线。一种是选择一个曝光良好的图像作为真实图像,并用它来监督融合网络的训练[39]。然而,这种手动选择的参考图像非常主观,可能会为融合网络的学习设定上限。另一种技术路线是使用特别设计的无参考指标,如MEF-SSIM[40],来评估融合结果的质量,以便引导网络产生曝光良好的图像[21,41,42]。就融合性能而言,基于无参考指标的方法已经产生了有希望的融合结果。由于无参考指标的合理性直接决定了网络的学习质量,问题的关键在于进一步开发用于评估融合结果的高性能无参考指标。

GAN方法将曝光条件视为一个概率分布,通过对抗性学习,使得融合图像的曝光趋于良好。接下来,构建理想的曝光分布作为逼近的目标变得重要。MEF-GAN [43] 使用MEF数据集中的标签图像作为曝光参考,这些标签图像是从多个图像融合算法的结果中选取的。如上所述,这种人为选择的真实情况并非最佳选择。GANFuse [44] 从信息组合的角度构建对抗性模型。具体来说,GANFuse认为融合图像与源图像之间的差异应该具有与另一个源图像相似的概率分布。尽管这样的对抗模型可以使融合图像尽可能多地包含源图像的信息,但假设融合图像中的信息是源图像信息的总和可能是不准确的。然而,GAN方法仍然产生了有前景的融合结果。从这个角度来看,充分利用源图像中的信息(例如,曝光条件、场景结构)来建立无监督的对抗模型可能是实现高质量多曝光融合的一个好选择。

2.2.2 医学图像融合

根据所表示的信息,医学图像可以分为结构图像和功能图像。例如,PET和SPECT图像可以描述身体代谢功能的强度,而MRI和CT图像可以反映组织的结构。绿色荧光蛋白(GFP)图像可以显示与生物活细胞分子分布相关的功能信息,而相差图像(PC)可以描述如细胞核和线粒体这样的结构信息。医学图像融合将两种不同类型的医学图像结合起来,生成一个信息更丰富的单一图像,这有助于更准确地诊断疾病。目前,实现医学图像融合的两种流行方法是CNN和GAN方法。

大多数用于医学图像融合的CNN方法只参与特征融合[22,23,70]。具体来说,这些方法通常使用预训练的卷积神经网络来测量医学图像像素的活动水平,并生成融合权重图。然后,将生成的权重图与传统的分解和重建策略(如拉普拉斯金字塔)结合起来,以实现医学图像融合。一个不容忽视的问题是,由预训练网络生成的融合权重图可能不适当,因为网络的参数并未在医学图像上进行训练。相比之下,一些其他的CNN方法基于期望的信息构建融合结果和源图像之间的损失函数,并在医学图像上精心训练网络[71,72]。训练有素的网络可以完成特征提取、特征融合和图像重建的端到端过程,与上述类型的CNN方法相比,可以实现相对更好的融合性能。

GAN方法通过对抗性学习机制同时模拟医学源图像中的显著信息[73]。例如,功能医学图像的显著信息是强度分布,而结构医学图像的显著信息是空间纹理。GFPPC-GAN[74]将GAN引入到GFP和PC图像的融合中,使用PC图像和融合图像之间的对抗性学习来加强结构信息的保留。DDcGAN[25]采用多个判别器与生成器建立对抗性游戏,使得生成器产生的融合图像可以包含功能和结构信息。基于DDcGAN,MGMDcGAN[75]引入了根据计算出的掩码的第二个对抗性游戏,以进一步增强骨密度信息的保留。总体而言,GAN方法在医学图像融合方面可以实现卓越的性能。然而,由于功能图像的像素强度远大于结构图像,纹理信息很可能被功能信息所掩盖。这一医学图像融合的特性对GAN方法提出了挑战,因为GAN的训练不平衡经常发生。

2.3. 锐化融合

锐化融合是一种有效技术,用于解决光谱分辨率和空间分辨率之间的矛盾。在空间图像的指导下,致力于在保持光谱分辨率的同时实现空间维度的超分辨率。两个典型的锐化融合任务是多光谱图像锐化和高光谱图像锐化。

2.3.1. 多光谱锐化

多光谱锐化是将具有低空间分辨率的多光谱图像(LRMS)与全色(PAN)图像融合,以产生具有高空间分辨率的多光谱图像(HRMS)。与上述图像融合任务相比,多光谱锐化需要更高的信息保真度(即,光谱、结构)。用于锐化的深度学习方法主要是CNN和GAN方法。根据学习方式,有监督模型和无监督模型之分。具体来说,有监督方法遵循Wald协议[76]对原始多光谱(MS)和全色(PAN)图像执行空间退化操作,以获得低分辨率的多光谱(LRMS)和全色(LRPAN)图像,例如低通滤波、下采样等。然后,生成的LRMS和LRPAN图像被用作输入图像,而原始的MS图像被视为参考图像。相比之下,无监督方法直接在原始的MS和PAN图像上进行训练。

生成的HRMS图像与参考图像之间的像素强度距离是监督CNN训练网络的主要约束。然而,仅在此约束下获得的融合结果常常会遭受空间结构损失[77-79]。尽管相对于

距离,

距离能更好地保护这些纹理细节,但仍然不令人满意[80,81]。为了解决这一挑战,一些方法采用新的学习策略(例如残差学习[82],在高频域训练)和额外的损失函数(例如感知损失)来进一步增强结构的保留[83-85]。其他一些方法主张探索PAN和HRMS图像之间的空间结构关系,并利用它来指导融合结果包含更多合理的纹理细节[86,87]。无监督的CNN方法依赖于保留光谱和空间结构的损失构建。通常用于光谱保留的损失函数是空间退化后融合图像与LRMS图像之间的距离。因此,设计用于保留空间结构的损失函数是实现高质量锐化的关键。通常,空间损失定义为PAN图像与融合后的HRMS图像之间的强度/梯度距离,其中变换策略包括回归线性加权[88]、通道复制[16]等。与CNN方法相比,GAN方法采用对抗机制作为额外的约束,使融合后的HRMS图像具有更高的光谱保真度和合理的空间结构。GAN方法也可以分为两种类型:监督和无监督。典型的监督GAN方法直接使用参考图像作为对抗目标[89,90],从而同时实现期望的光谱分布和空间结构分布的估计。因为没有一个参考目标可以同时提供理想的光谱和空间分布,所以无监督的GAN方法使用两个独立的判别器来实现光谱和结构的保留[91],其中对抗游戏涉及的数据构建与上述无监督CNN方法类似。

在融合性能方面,当前的监督方法优于无监督方法。然而,应该注意的是,监督融合网络的性能高度依赖于成对数据的构建,这意味着监督模型在全分辨率测试中可能表现不佳。对于无监督方法,目前的主要问题是用于构建空间结构损失的假设不够合理,这限制了无监督模型的性能。

2.3.2. 超光谱锐化

与多光谱图像相比,超光谱图像具有更高的光谱分辨率和更低的空间分辨率。因此,通过将低空间分辨率的超光谱图像(LRHS)与多光谱图像或全色图像融合,可以实现超光谱锐化,从而产生高空间分辨率的超光谱图像(HRHS)。超光谱锐化的深度模型包括CNN和GAN方法。与多光谱锐化任务类似,这些方法在超光谱锐化任务中也可以分为监督和无监督方法。由于HRHS图像不可用,监督CNN方法通常在模拟数据上进行训练。更具体地说,这些方法直接使用现有的光谱响应函数(SRF)和自定义点扩散函数(PSF)对原始HS图像实施光谱退化和空间退化。

降级图像和原始的高光谱图像被构建成图像对,以在监督下学习高光谱锐化[92-95]。然而,通过模拟中的监督训练获得的这种模型可能不适合真实场景。在一些无监督的CNN方法中,尽管不需要参考图像来监督训练过程,但需要知道条件随机场(CRF)和点扩散函数(PSF)。这些方法通过空间响应函数(SRF)和PSF建立了生成的高分辨率高光谱(HRHS)图像与观察到的源图像之间的一致性关系[96-98],从而实现对HRHS图像的有效估计。不幸的是,在大多数情况下,SRF和PSF是未知的。为了应对这一挑战,一些CNN方法结合了高光谱分解来设计耦合网络以估计SRF和PSF[99-101],从而实现无需监督的高光谱锐化,这已经显示出有希望的性能。与上述方法不同,[98]假设HRHS和LRHS图像共享相同的光谱子空间,在这个子空间中,CNN仅用于正则化子空间系数的估计,从而生成所需的HRHS图像。与CNN方法相比,关于生成对抗网络(GAN)方法用于高光谱锐化的研究相对较少。HPGAN[102]采用3D卷积网络专注于在参考图像的监督下捕获期望的高频残差。最终的融合结果是通过将上采样的LRHS图像与学习到的高频残差相加获得的。此外,HPGAN使用已知的SRF将生成的HRHS图像退化为全色图像,从而与源PAN图像建立对抗性游戏,这进一步增强了高光谱锐化的性能。

2.4. 统一图像融合方法

一些方法具有很好的通用性,可以使用统一的框架实现各种图像融合任务。尽管这些方法的想法通常非常不同,但它们的特点是能够找到不同融合任务的共同点。特别是,U2Fusion [1] 采用弹性权重巩固(EWC)来连续训练融合网络,这可以克服跨任务学习中的灾难性遗忘问题。通过这种方式,U2Fusion为各种图像融合任务建立了一个通用模型。PMGI [16] 将各种图像融合任务建模为强度和梯度信息的提取和重建。只需根据特定任务中信息融合的趋势调整损失函数项的系数比例,就可以适应多种图像融合场景。IFCNN [17] 认为任何图像融合任务都是一个有效信息选择的问题,在这个问题中,信息有效性的评估基于像素的清晰度。类似的统一方法包括SGRFR [103]、CU-Net [104]、DIF-Net [105]、SDNet [106] 等。

3. 评估

对于上述六个图像融合任务,我们在它们各自的代表性数据集上进行了评估实验。具体来说,多曝光图像融合的测试数据来自MEF 1数据集[108],该数据集收集了两个场景类别(室内和室外)的多曝光序列;多焦点图像融合的测试数据来自Lytro2数据集[109],该数据集使用Lytro相机在特定视角下改变焦距深度,以获得具有不同焦点区域的数字图像;红外和可见光图像融合的测试数据来自TNO3数据集,该数据集主要描述各种与军事相关的场景;医学图像融合的测试数据来自哈佛医学院网站,该网站包括大脑半球的不同横断面;多光谱锐化测试数据来自QuickBird数据集,其中多光谱图像包含4个波段;超光谱锐化测试数据来自Cave5数据集[110],其中超光谱图像包含31个波段。在每个图像融合任务中选择了五种代表性方法进行评估,包括基于自编码器的方法、基于卷积神经网络的方法、基于生成对抗网络的方法和统一方法。

3.1. 定性与定量评估

首先从定性和定量两个方面进行评估。在定性评估中,针对每个图像融合任务选取两个典型的可视化结果,突出显示相关区域以反映差异。在定量评估中,根据各自特点为每种融合场景选择4个流行的客观指标。定性和定量结果分别在图4-6和表1中报告。

在数字摄影图像融合中,DeepFuse [21]、GANFuse [44]、CNN [45]和MMF-Net [51]取得了相对较好的性能,这衍生出两条进一步提高深度学习性能的途径。一条是为无监督学习设计更高品质的非参考指标,另一条是构建更符合实际情况的数据以进行监督训练。可以发现,一些统一的方法如PMGI [16]和U2Fusion [1]在某些多模态图像融合任务中甚至比专门设计的方法表现得更好。这一现象表明,寻求图像融合场景的共性以建立一个通用模型是非常有前景的。在锐化融合场景中,取得更好性能的方法的共同特点是它们充分考虑了融合结果与源图像在空间或光谱维度上的关系,例如GTP-PNet [87]和GDD [96]。这一现象鼓励后续研究更加关注空间和光谱退化模型的估计。

3.2. 效率评估

对于基于深度学习的融合方法,运行效率是衡量融合性能的一个重要因素。我们统计了上述典型方法的运行时间,结果在表2中报告。可以看出,统一的PMGI [16]、基于GAN的MFF-GAN [58]、基于CNN的PNN [77]和CuCaNet [99]实现了相对较高的运行效率,这是由于它们的共同特点。具体来说,这些方法都有相对简单的网络结构,这确保了模型参数量较少。在简单的网络结构下,设计更适合任务特点的约束和优化方法可以获得准确性和效率的双重收获。这启示后续研究应更加关注图像融合任务本身的特性,而不是盲目增加神经网络的规模。

4. 应用

图像融合可以有效地整合来自不同源图像的信息,为下游任务提供更有用的输入,从而提高这些应用的性能。我们将简要介绍几个典型应用,例如摄影可视化、目标跟踪、医学诊断和遥感监测。

4.1. 摄影可视化

摄影可视化是良好地展示数字成像设备捕获结果的过程,致力于提高用户的视觉体验[111,112]。然而,数字成像设备通常具有预设的景深和有限的动态范围,这意味着设备直接输出的图像可能并非所期望的[113, 114]。图像融合技术可以结合在不同拍摄设置下捕获的图像中的有效信息,生成一个全焦点且曝光适当的图像,这大大提高了摄影质量[115,116],如图7所示。目前,图像融合技术已被集成到一些数字成像设备中[117, 118],包括相机、手机等。

4.2. RGBT目标跟踪

目标跟踪是在视频的后续帧中找到当前帧中定义的兴趣对象[119]。最常见的是一种单一模式跟踪,例如基于可见光模式的跟踪和基于红外光模式的跟踪。然而,由于单一模式表示的限制,这些跟踪方法并不稳健。具体来说,可见光图像的质量取决于成像环境,这意味着在夜间或光线不足的条件下,目标跟踪的性能无法保证。同样,红外图像缺乏纹理且场景立体感差,在某些情况下也不可靠。因此,衍生出了一种新的目标跟踪技术路线,即RGBT跟踪[120, 121],它融合了红外和可见光图像中的互补信息,使目标跟踪更加稳健,如图8所示。常见的RGBT跟踪方法包括基于稀疏表示的方法[122,123],基于图的方法[124,125],基于相关滤波的方法[126,127],以及基于深度学习的方法[128,129]。

不管方法的类型如何,保持融合过程中有效的目标信息是实现高质量RGBT跟踪的关键。换句话说,能够同时保留红外模态中的目标显著性和可见模态中的目标纹理细节的融合结果将使跟踪准确性更加有希望[130–132]。

4.3. 医学诊断

绝大多数的医学诊断是由计算机或医生分析医学影像得出的。不同成像方式的医学影像成像机制多样,它们对描述身体信息的侧重点也不同[26,34]。常见的医学成像方式包括计算机断层扫描(CT)[133]、磁共振成像(MRI)[134]、正电子发射断层扫描(PET)[135]、单光子发射计算机断层扫描(SPECT)[136]和超声波[137]。其中,一些成像方式侧重于描述器官和组织的结构,而其他一些则侧重于描述区域代谢强度。在这种情况下,融合不同成像方式的医学影像将大大提高诊断的准确性和效率,同时减少冗余信息并提高图像质量[138,139],如图9所示。具体来说,一些疾病不仅会引起组织物理形态的变化,还会增加局部代谢的强度,例如肿瘤。因此,功能性和结构性医学影像的结合可以提高这些疾病的诊断准确性[140–142]。此外,医学影像融合可以促进疾病确定和病变定位的同时实现,这将大大提高诊断效率并节省后续治疗的时间。正是因为这些吸引人的优点,图像融合已经被集成到一些医学诊断设备中,以帮助前沿医疗工作者实现高质量的诊断[143]。

4.4. 遥感监测

遥感监测是指通过分析高光谱/多光谱图像来观察和调查陆地、海洋和天气[144,145]。常见的遥感监测任务包括土地覆盖分类[146]、植被检测[147]、矿物勘探[148]等。然而,光谱分辨率和空间分辨率无法同时实现。换句话说,高光谱/多光谱图像的低空间分辨率限制了遥感监测精度的进一步提高。幸运的是,锐化融合可以在保持光谱分辨率的同时增加空间分辨率[149]。因此,技术人员引入了图像融合来预处理遥感图像,极大地提高了相关监测任务的性能,如图10所示。如今,锐化融合技术已成功应用于数字地球建模和土地覆盖制图等任务,显示出良好的实用价值[149,150]。

5. 结论与展望

作为一种增强技术,图像融合在包括摄影可视化、物体识别在内的各个领域发挥了关键作用。追踪、医疗诊断和遥感监测。近年来,越来越多基于深度学习的图像融合方法被提出,以提高融合性能。为了为相关研究人员和技术人员提供有效的参考和理解,本综述全面分析了图像融合领域中最新的基于深度学习的方法。我们结合特定的图像融合场景讨论了各种方法的特点,在此过程中也提供了进一步改进的方向。此外,我们还对每个融合任务中具有代表性的方法进行了性能比较,并介绍了一些图像融合的典型应用。尽管已经为基于深度学习的图像融合做出了广泛的努力,但仍存在一些未解决的挑战。

非配准图像融合。目前,在几乎所有图像融合任务中,基于深度学习的方法都假设源图像已经预先配准[151]。然而,在现实场景中,由于视差、尺度差异等因素,多模态图像和数字摄影图像并未配准。因此,在现有深度学习方法中,沿空间像素位置的操作对于现实世界的源图像并不适用。尽管可以使用许多现成的方法[152]来预先配准源图像,但依赖于配准算法的预处理可能会导致某些限制,例如效率低下和依赖于配准精度。因此,开发非配准融合算法以隐式方式实现图像注册和融合是可取的

不同分辨率图像融合。通常,由于传感器原理的差异,源图像的分辨率是不同的。克服分辨率差异并充分利用不同源图像中的信息以实现有效融合是一个挑战。尽管已经提出了一些方法[25,153]来解决不同分辨率图像融合的问题,但仍存在一些未解决的问题,例如采用的上采样策略和网络中的上采样位置。更重要的是,设计深度网络时,希望有机地结合超分辨率和图像融合任务的特征。

面向任务的图像融合。图像融合的初衷是为后续应用提供更有益的输入。然而,在许多图像融合任务中,现有的基于深度学习的方法在设计损失函数时并未考虑融合与后续应用之间的相关性,这通常会导致非常主观的融合结果。未来的研究可以考虑将后续任务的准确性引入融合阶段的损失函数设计中,以从决策层面指导融合过程。

实时图像融合。从应用需求的角度来看,图像融合是许多视觉任务的先驱,其性能直接影响整个任务的准确性。一些实际应用对算法的实时性能有很高的要求。然而,当前图像融合方法中的复杂变换分解和迭代优化导致运行效率较低,这限制了图像融合在一些实时任务中的应用,例如视频监控。因此,开发实时图像融合算法具有重要意义,这将使图像融合具有更广泛的应用前景。

融合质量评估。由于在大多数图像融合任务中没有真实的标准答案,因此评估融合结果的质量非常具有挑战性。因此,为图像融合领域设计具有更多表征能力的无参考指标非常重要。一方面,所提出的指标可以用来构建损失函数以指导更高质量的融合。另一方面,新设计的指标也可以公平地评估融合结果,以鼓励后续的融合研究。距离度量学习可能是融合质量评估的一个好选择

基于以上回顾和展望,我们尚未达到图像融合的上限。非配准融合方法对真实数据更具鲁棒性;不同分辨率图像融合可以克服尺度差异;面向任务的融合方法具有更大的实用价值;实时图像融合具有更广泛的应用前景;更高质量的融合评估指标能够提高融合性能。让我们拭目以待。

CRediT 作者贡献声明

张浩:构思并设计了这项工作,执行了实验,进行了形式分析,撰写 - 原始草稿。

徐涵:为这项工作提供了有见地的建议,进行了形式分析,撰写 - 审查与编辑。

田欣:为这项工作提供了有见地的建议,撰写 - 审查与编辑。

蒋君君:为这项工作提供了有见地的建议,撰写 - 审查与编辑。

马佳怡:构思并设计了这项工作,为这项工作提供了有见地的建议,进行了形式分析,撰写 - 审查与编辑。

利益冲突声明

作者声明在本论文报告的工作中,他们没有已知的财务利益冲突或个人关系,这些可能看起来会影响本论文报告的工作。

致谢

本工作得到了中国国家自然科学基金的资助,项目编号为61773295,中国湖北省重点研发计划,项目编号为2020BAB113,以及中国湖北省自然科学基金,项目编号为2019CFA037。

相关文章:

Image fusion meets deep learning: A survey and perspective译文

摘要 图像融合是指从不同的源图像中提取和组合最有意义的信息,旨在生成一个更有信息量和有利于后续应用的单图像。深度学习的发展极大地推动了图像融合的发展,而神经网络强大的特征提取和重建能力使融合结果充满希望。最近,几种最新的深度学…...

多维高斯分布的信息熵和KL散度计算

多维高斯分布是一种特殊的多维随机分布,应用非常广泛,很多现实问题的原始特征分布都可以看作多维高斯分布。本文以数据特征服从多维高斯分布的多分类任务这一理想场景为例,从理论层面分析数据特征和分类问题难度的关系注意,本文分…...

物体网格弹性变形---Unity中实现

在游戏引擎场景中的3D物体是由一定数量的点、面组成的,如下图: 要使这些物体变形就是改变3D物体每个顶点状态。 1.首先在Unity场景中增加一个球体,如下图 3D组件默认拥有MeshFilter、meshRenderer、Collider组件,分别用来获取Mes…...

什么是Sass,有什么特点

Sass 概述 什么是 Sass? Sass(Syntactically Awesome Style Sheets)是一种 CSS 预处理器,它扩展了 CSS 的功能,使其更加强大和灵活。Sass 允许开发者使用变量、嵌套规则、混合宏、继承等高级特性,从而编写…...

Spring注入Map学习

Spring注入Map学习 在Spring中 在策略模式中, 会经常用到 根据Bean名称获取Bean的实例 有2个方法很好用 1. 使用Autowired注入 2. 使用构造方法注入 但是奇怪的一点是: 日志打印并没有看到结果, 第一行的 Autowired的结果 是个null 那是因为 注入时机 的问题 注入时机&…...

Java 基础知识 (集合框架 + 并发编程 + JVM 原理 + 数据结构与算法)

文章目录 一.集合框架1. 常见集合接口及其特点List 接口Set 接口Map 接口 2. ArrayList 和 LinkedList 的区别和适用场景ArrayListLinkedList 3. HashSet 和 TreeSet 的特点和用法HashSetTreeSet 4. HashMap 和 TreeMap 的实现原理和使用注意事项HashMapTreeMap 5. 集合遍历方式…...

数据脱敏工具:基于 FFmpeg 的视频批量裁剪

在数据处理和隐私保护领域,数据脱敏是一项重要的任务,尤其是在处理包含敏感信息的视频数据时。本文介绍了一种使用 Python 和 FFmpeg 实现的视频批量裁剪工具,该工具可以将视频中的敏感区域裁剪掉,从而实现数据脱敏。通过使用 PyI…...

从零开始:使用 Spring Boot 开发图书管理系统

如何利用是springboot搭建一个简单的图书管理系统,下面让我们一起来看看吧 文章目录 项目结构1. 主类 LibraryApplication.java功能与注意事项: 2. 模型类 Book.java功能与注意事项: 3. 数据仓库接口 BookRepository.java功能与注意事项&…...

深入浅出:大数据架构中的流处理与实时分析

1. 引言 随着数据产生速度的不断加快,传统的批处理架构已经无法满足实时数据处理和快速响应的需求。流处理成为解决这一问题的关键技术之一,广泛应用于金融、互联网、物联网等领域。流处理技术能够处理不断到来的数据流,实时分析和反馈,使得系统能够迅速做出反应,提供实时…...

基于Multisim的汽车尾灯控制电路设计与仿真

1、电路由四个按键控制,分别对应左转、右转、刹车和检查。 2、当左转或右转键按下时,左侧或右侧的 3个汽车尾灯按照左循环或右循环的顺!2/3 点亮,点亮时间为 1秒。 3、当刹车时,所有的尾灯同时闪烁,闪烁时间为1秒。 4、当检查时…...

WebStorm 2024.3/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理

WebStorm 2024.3/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理 1. 标题识别elementUI组件爆红 这个原因是: 在官网说明里,才版本2024.1开始,默认启用的 Vue Language Server,但是在 Vue 2 项目…...

【大数据学习 | Spark-Core】详解分区个数

RDD默认带有分区的,那么创建完毕rdd以后他的分区数量是多少? 从hdfs读取文件的方式是最正规的方式,我们通过计算原理可以推出blk的个数和分区数量是一致的,本地化计算。 我们可以发现数据的读取使用的是textInputFormat&#xff…...

(二)Sping Boot学习——Sping Boot注意事项

1.springboot默认是扫描的类是在启动类的当前包或者下级包。 2.运行报错 ERROR:An incompatible version [1.2.33] of the Apache Tomcat Native library is installed, while Tomcat requires version [1.2.34] 网上试了很多方法,直接重新安装更新版…...

深入浅出,快速安装并了解汇编语言

1.什么是汇编语言 了解汇编语言需要先从了解机器语言开始,在计算机发展的初期阶段,机器语言是计算机直接理解和执行的二进制代码语言,其核心特点包括直接执行性、资源高效性、学习难度大以及平台依赖性。它主要由指令码构成,这些…...

LLM的原理理解6-10:6、前馈步骤7、使用向量运算进行前馈网络的推理8、注意力层和前馈层有不同的功能9、语言模型的训练方式10、GPT-3的惊人性能

目录 LLM的原理理解6-10: 6、前馈步骤 7、使用向量运算进行前馈网络的推理 8、注意力层和前馈层有不同的功能 注意力:特征提取 前馈层:数据库 9、语言模型的训练方式 10、GPT-3的惊人性能 一个原因是规模 大模型GPT-1。它使用了768维的词向量,共有12层,总共有1.…...

JavaScript中的箭头函数以及编写优化

箭头函数 1.1.1 箭头函数的概念 箭头函数时ES 6之后增加一种编写函数的方法,并且它比函数的表达式要更加简洁 箭头函数不会绑定this,arguments属性箭头函数不能作为构造函数来使用(不能和new一起来使用,会出现错误) //1.之前的方…...

Thymeleaf模板引擎生成的html字符串转换成pdf

依赖引入implementation("org.springframework.boot:spring-boot-starter-thymeleaf")implementation("org.xhtmlrenderer:flying-saucer-pdf")将ITemplateEngine注入到spring管理的类中, Context context new Context(); context.setVariable…...

Android 实现双列图片瀑布流式布局

Android 实现双列图片瀑布流式布局 实现双列图片瀑布流布局,关键在于 RecyclerView 的 StaggeredGridLayoutManager 和图片的动态加载。以下是实现步骤: 1. 添加必要依赖 使用 Glide 加载图片。确保在 build.gradle 中添加依赖: implement…...

运维Tips:Docker或K8s集群拉取Harbor私有容器镜像仓库配置指南

[ 知识是人生的灯塔,只有不断学习,才能照亮前行的道路 ] Docker与Kubernetes集群拉取Harbor私有容器镜像仓库配置 描述:在现在微服务、云原生的环境下,通常我们会在企业中部署Docker和Kubernetes集群,并且会在企业内部搭建Harbor私有镜像仓库以保证开发源码安全,以及加快…...

显示类控件

文章目录 1 QLabel1.1 常用属性1.2 例子1,设置文本 (textFormat)1.3 例子2,设置widget背景图片 (pixmap和scaledContents)1.4 例子3,设置对齐方式 (alignment)1.5 例子4,设置自动换行,缩进和边距1.5.1 设置换行 (wordW…...

AOC显示器915Sw按键失灵维修记

大家好,我是 程序员码递夫 今天给大家分享的是自己维修老古董AOC液晶显示器按键失灵的的过程,实属DIY记录。 1、引子 家里有台老古董的19寸AOC液晶显示器(型号915Sw), 一直作为我的副显示器陪伴着左右,显示还正常&a…...

PyQt学习笔记

一.PyQt5的安装 当我们安装好开发环境后,打开pycharm在其设置里面点击按钮自动安装即可。 安装完成后我们会在这里面看到这几个东西说明安装成功了。 二.PyQt5 GUI程序框架 1.一个简单的PyQt5应用程序 首先我们用pycharm创建一个demo.py的文件。 我们创建文件为s…...

LLMops产品介绍

文章目录 字节跳动的扣子优点低代码开发丰富的插件与能力扩展强大的记忆与数据交互能力应用场景广泛 不足模型选择相对受限定制化程度受限输出效果有待提高应用部署范围有限市场认知度和用户基础不足 开悟大模型运营管理系统(LLMOPS)优点全生命周期管理降…...

【GPTs】Front-end Expert:助力前端开发的智能工具

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | GPTs应用实例 文章目录 💯GPTs指令💯前言💯 Front-end Expert主要功能适用场景优点缺点 💯小结 💯GPTs指令 中文翻译: 使用Dalle生成用户…...

一篇保姆式centos/ubuntu安装docker

前言: 本章节分别演示centos虚拟机,ubuntu虚拟机进行安装docker。 上一篇介绍:docker一键部署springboot项目 一:centos 1.卸载旧版本 yum remove docker docker-client docker-client-latest docker-common docker-latest doc…...

人工智能大趋势下软件开发的未来

随着人工智能(AI)技术的不断演进,软件开发领域正经历着深刻的变革。中国电信推出的星辰大模型软件工厂,作为国内首款破局性AI开发工具,其全自动流水线的特性——自动生成前后端代码、自主测试和纠错等,为软…...

string的模拟实现

string的模拟实现 一.string的模拟实现1.1构造函数和析构函数,以及一些简单函数1.2迭代器1.3增删查改 二.运算符重载三.流插入和流提取 一.string的模拟实现 string本质上是是一种char类型的顺序表,结构上和顺序表相似。 namespace Mystring {class st…...

Qt桌面应用开发 第七天(绘图事件 绘图设备)

目录 1.绘图事件paintEvent 2.高级绘图 3.图片绘制 4.绘图设备 4.1QPixmap 4.2QBitmap 4.3QImage 4.4QPicture 1.绘图事件paintEvent paintEvent——绘图事件 需求:利用QPainter绘制点、线、圆、矩形、文字;设置画笔改为红色,宽度为…...

PDF内容提取,MinerU使用

准备环境 # python 3.10 python3 -m pip install huggingface_hub python3 -m pip install modelscope python3 -m pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com下载需要的模型 import json import osimport requests from huggingface_hub…...

基于lora的llama2二次预训练

基于lora的llama2二次预训练 一、为什么需要对llama2做基于lora的二次预训练? 加入中文训练语料进行llama2的二次预训练,这样模型就可以增加支持中文输出的能力。 二、基于lora的llama2二次预训练的目标是什么? 在保持预训练模型权重不变的情况下&a…...

机器学习之量子机器学习(Quantum Machine Learning, QML)

量子机器学习(Quantum Machine Learning, QML)是一门结合量子计算与机器学习的新兴交叉领域。它利用量子计算的优势(如并行计算、量子叠加和量子纠缠)来解决传统机器学习中难以处理的问题,或提升算法效率和性能。 QML 的核心要素 量子计算的特性: 量子叠加:允许量子比特…...

【2024 Optimal Control 16-745】【Lecture 3 + Lecture4】minimization.ipynb功能分析

主要功能-最小化问题 目标函数分析: 定义函数 f ( x ) f(x) f(x) 及其一阶、二阶导数。使用绘图工具可视化函数的形状。 实现数值优化: 使用牛顿法寻找函数的极值点,结合一阶和二阶导数加速收敛。使用正则化牛顿法解决二阶导数矩阵可能不正定的问题。 可视化过程…...

一种新的电机冷却方式——热管冷却

在现代工业设备中,电机作为一种核心动力装置,广泛应用于各个领域。例如,家用电器、自动化生产线、交通工具等都离不开电机的运作。然而,随着电机功率的不断提升和负载的增加,电机在运行过程中产生的热量也随之增多&…...

虚拟机上搭建达梦DSC简略步骤

vmware 17 centos 7.6 达梦 dm8_20240920_x86_rh7_64.iso cd /d C:\Program Files (x86)\VMware\VMware Workstation\.\vmware-vdiskmanager.exe -c -s 100MB -a lsilogic -t 2 "F:\vm\dmdsc\sharedisk\share-dcr.vmdk" .\vmware-vdiskmanager.exe -c -s 100MB -a l…...

C++ 矩阵旋转

【问题描述】 编写一个程序,读入一个矩阵,输出该矩阵以第一行第一列数字为中心,顺时针旋转90度后的新矩阵,例如: 输入的矩阵为: 1 2 3 4 5 6 顺时针旋转90度后输出的矩阵为: 4 1 5 2 6 3 【输入…...

mongodb基础操作

创建数据库 use admin授权 db.auth("admin","123456")创建用户 db.createUser({ user: "xxx", pwd: "xxxxxx", roles: [ { role: "readWrite", db: "iot" } ] })查询数据库大小 show dbs;查询结果数量 db.mo…...

以思维链为线索推理隐含情感

❀ 以思维链为线索推理隐含情感 简介摘要引言THORTHOR核心代码实验结果代码运行总结 简介 本文主要对2023ACL论文《Reasoning Implicit Sentiment with Chain-of-Thought Prompting》主要内容进行介绍。 摘要 尽管情绪分析任务常依据文本中的直接意见表达来判定目标的情绪倾向…...

(笔记,自己可见_1)简单了解ZYNQ

1、zynq首先是一个片上操作系统(Soc),结合了arm(PS)和fpga(PL)两部分组成 Zynq系统主要由两部分组成:PS(Processing System)和PL(Programmable L…...

部署自动清理任务解决ORA-00257: archiver error. Connect internal only, until freed

使用oracle数据库的时候,我们一般都会开启归档,确保数据库的日志连续和和数据安全。但随着数据库的运行,归档文件会越来越多,最终撑满磁盘空间,数据库无法继续归档,出现“ORA-00257: archiver error. Conne…...

scau编译原理综合性实验

一、题目要求 题目: 选择部分C语言的语法成分,设计其词法分析程序、语法语义分析程序。 要求: 设计并实现一个一遍扫描的词法语法语义分析程序,将部分C语言的语法成分(包含赋值语句、if语句、while循环语句&#xf…...

[Docker-显示所有容器IP] 显示docker-compose.yml中所有容器IP的方法

本文由Markdown语法编辑器编辑完成。 1. 需求背景: 最近在启动一个服务时,突然发现它的一个接口,被另一个服务ip频繁的请求。 按理说,之前设置的是,每隔1分钟请求一次接口。但从日志来看,则是1秒钟请求一次&#xff…...

PICO VR串流调试Unity程序

在平时写Unity的VR程序的时候,需要调试自己写的代码,但是有的时候会发现场景过于复杂,不是HMD一体机能运行的,或者为了能够更方便的调试,不需要每次都将程序部署到眼睛里,这样非常浪费时间,对于…...

ESP-KeyBoard:基于 ESP32-S3 的三模客制化机械键盘

概述 在这个充满挑战与机遇的数字化时代,键盘已经成为我们日常学习、工作、娱乐生活必不可少的设备。而在众多键盘中,机械键盘,以其独特的触感、清脆的敲击音和经久耐用的特性,已经成为众多游戏玩家和电子工程师的首选。本文将为…...

PML和金属边界区别

一、完美匹配层(PML)边界 原理:PML是一种特殊的吸收边界条件。它基于麦克斯韦方程组的特殊解来设计,其材料参数是经过精心选择的,使得在这个边界区域内,电磁波能够无反射地进入并被吸收。从数学上来说&…...

机器学习基础--基于线性回归房价预测

经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。线性回归是回归模…...

【Y20030007】基于java+servlet+mysql的垃圾分类网站的设计与实现(附源码 配置 文档)

网垃圾分类网站的设计与实现 1.摘要2.开发目的和意义3.系统功能设计4.系统界面截图5.源码获取 1.摘要 随着全球环境保护意识的提升,垃圾分类已成为一项紧迫且重要的任务。为了有效推动垃圾分类的实施,提升公众的环保意识和参与度,垃圾分类已…...

47小型项目的规划与实施

每天五分钟学Linux | 第四十七课:小型项目的规划与实施 大家好!欢迎再次来到我们的“每天五分钟学Linux”系列教程。在前面的课程中,我们学习了并发编程的知识,包括如何管理和使用进程与线程。今天,我们将探讨如何规划…...

Linux---ps命令

​​​​​​Linux ps 命令 | 菜鸟教程 (runoob.com) process status 用于显示进程的状态 USER: 用户名,运行此进程的用户名。PID: 进程ID(Process ID),每个进程的唯一标识号%CPU: 进程当前使用的CPU百分比%MEM: 进程当前使用的…...

Qt Qt::UniqueConnection 底层调用

在这里插入图片描述 步骤1: 1:判断槽函数连接方式, 以及信号对象是否有效2: 信号计算格式是否 大于 signal_index 目前调试 signal_index 不太清楚怎末计算的(有清楚的帮忙街道)3:获取槽函数对…...

Jenkins + gitee 自动触发项目拉取部署(Webhook配置)

目录 前言 Generic Webhook Trigger 插件 下载插件 ​编辑 配置WebHook 生成tocken 总结 前言 前文简单介绍了Jenkins环境搭建,本文主要来介绍一下如何使用 WebHook 触发自动拉取构建项目; Generic Webhook Trigger 插件 实现代码推送后,触…...