SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测之论文阅读
摘要
在遥感影像(RSI)中,准确且及时地检测包含数十像素的多尺度小目标仍具有挑战性。现有大多数方法主要通过设计复杂的深度神经网络来学习目标与背景的区分特征,常导致计算量过大。本文提出一种兼顾检测精度与计算代价的快速准确的遥感目标检测方法,称为 SuperYOLO。该方法融合多模态数据,并通过借助超分辨率(SR)学习,在低分辨率(LR)输入下实现多尺度目标的高分辨率(HR)检测。首先,我们设计了对称紧凑的多模态融合(MF)模块,从多种数据中提取补充信息,以提升遥感图像中小目标的检测效果。其次,我们构建了简单灵活的超分支(SR branch),在训练阶段学习可区分小目标与广阔背景的高分辨率特征,进一步提高检测精度。另外,为避免增加推理阶段的计算开销,SR 分支仅在训练时使用,推理时予以丢弃,且因输入为低分辨率图像而减少网络整体计算量。实验结果表明,在常用的 VEDAI 遥感数据集上,SuperYOLO 在 mAP50 指标上达到了 75.09%,较 YOLOv5l、YOLOv5x 及专为遥感设计的 YOLOrs 等大型模型提高了超过 10%。同时,SuperYOLO 的参数量和 GFLOPs 分别约为 YOLOv5x 的 1/18 和 1/3.8。所提模型在精度–速度权衡方面优于现有最先进方法。代码将开源于:https://github.com/icey-zhang/SuperYOLO。
I. 引言
目标检测在计算机辅助诊断、无人驾驶等诸多领域具有重要作用。过去数十年间,基于深度神经网络(DNN)的多种优秀目标检测框架[1–5]相继被提出与优化,且在大规模自然图像数据集及其精确标注的推动下,检测精度显著提升[6–8]。
与自然场景相比,遥感影像(RSI)目标检测面临若干关键挑战:
标注样本数量较少,限制了 DNN 的训练效果;
RSI 中目标尺寸极小,仅占数十像素,相对于复杂广阔的背景极易被淹没[9,10];
目标尺度多样,不同类别间存在显著差异[11]。
如图 1(a)所示,汽车在广阔区域中非常微小;如图 1(b)所示,相较于房车(camping vehicle),汽车尺度更小且变化多端。
图1 RGB图像、IR图像和ground truth (GT)的视觉对比。红外图像为解决RGB检测中的难题提供了重要的补充信息。(a)中的物体在广阔的区域内相当小。在(b)中,物体有较大的变化,其中汽车的规模小于露营车的规模。RGB和IR模态的融合有效地提高了检测性能。
当前多数检测技术仅针对单一模态(如 RGB 或红外 IR)[12,13],难以利用不同模态间的互补信息提升地表目标识别能力[14]。随着成像技术发展,多模态遥感数据日益可得,为提高检测精度提供了契机。例如,将 RGB 与 IR 融合,可有效增强遥感小目标的可检测性。另一方面,某些模态分辨率偏低,需要通过超分辨率技术提升图像细节。近期超分辨率方法在遥感领域展现出巨大潜力[15–18],但基于 CNN 的高性能 SR 网络计算开销大,其在实时应用中的落地仍具挑战。
本研究旨在提出一款用于多模态遥感的实时高效目标检测框架,在保证高精度与高速推理的前提下,不增加额外计算负担。受轻量化实时神经网络的启发,我们以小型 YOLOv5s[19] 作为检测基线,其可降低部署成本并加速模型落地。考虑到小目标对高分辨率(HR)特征的需求,我们移除基线模型中的 Focus 模块,不仅有利于小而密集目标的定位,也提升了检测性能。我们提出如下关键技术:
像素级对称紧凑融合(MF)——在低计算代价下,高效地双向融合 RGB 与 IR 等多模态信息,相较于特征级融合进一步节省计算且不损失精度;
辅助超分辨率分支(SR branch)——在训练阶段引入 SR 任务,引导网络生成能区分小目标与背景的 HR 特征,有效减少背景误报;
无额外推理开销——SR 分支仅作为辅助任务,训练后舍弃,推理时保持低分辨率输入,实现 HR 空间信息提取而不增加计算;
优异的精度–速度权衡——SuperYOLO 在 VEDAI 数据集上显著超越现有实时及大型模型,提升超过 10% mAP50,且参数量和 FLOPs 大幅降低。
后续章节将依次介绍相关工作、方法细节、实验结果及分析。
A. 基于多模态数据的目标检测
近年来,多模态数据已在众多实际应用场景中得到广泛应用,包括视觉问答[20]、自动驾驶车辆[21]、显著性检测[22]以及遥感图像分类[23]。研究表明,将多模态数据的内部信息进行融合,能够有效传递互补特征,避免单一模态信息的遗漏。 在遥感影像(RSI)处理领域,来自不同传感器的多种模态(如红-绿-蓝(RGB)、合成孔径雷达(SAR)、激光雷达(LiDAR)、红外(IR)、全色(PAN)和多光谱(MS)影像)可相互补充,以提升各类任务的性能[24–26]。例如,附加的红外模态可捕获更长的热波段,在恶劣天气下提升检测能力[27]。Manish 等人[27]提出了一种多模态遥感影像实时目标检测框架,其扩展版本在中层融合阶段合并了多种模态数据。尽管多传感器融合如图 1所示能够提升检测性能,但其较低的检测精度和亟待提升的计算速度难以满足实时检测的需求。
融合方法主要分为三类:像素级融合、特征级融合和决策级融合[28]。决策级融合在最后阶段合并各分支检测结果,可能因对每个模态分支重复计算而消耗大量资源。在遥感领域,特征级融合被广泛采用:将多模态影像分别输入并行分支,提取各自特征后通过注意力机制或简单拼接等操作融合。但随着模态数增多,并行分支带来成倍的计算开销,不利于实时应用。
相比之下,像素级融合能够减少不必要的计算。本文中,我们的 SuperYOLO 在像素级对多模态进行融合,通过空间和通道域的高效操作挖掘不同模态间的内部互补信息,在大幅降低计算成本的同时提升检测精度。
B. 目标检测中的超分辨率
近期研究表明,多尺度特征学习[29,30]和基于上下文的检测[31]能够改善小目标检测性能,但这些方法往往侧重于多尺度信息的表示,而忽略了高分辨率上下文信息的保留。作为预处理手段,超分辨率(SR)已在多种目标检测任务中得到验证[32,33]。Shermeyer 等人[34]通过对不同分辨率的遥感影像进行检测实验,量化了 SR 对检测性能的影响。Courtrai 等人[35]基于生成对抗网络(GAN)生成高分辨率图像,并将其送入检测器以提升性能。Rabbi 等人[36]利用拉普拉斯算子提取输入图像的边缘,以加强高分辨率重建,从而改善目标定位与分类。Hong 等人[37]引入循环一致性 GAN 架构作为 SR 网络,并在 Faster R-CNN 中进行改进,用于检测由 SR 网络生成的增强图像中的车辆。这些工作表明,SR 结构能有效应对小目标检测难题,但由于输入图像分辨率增大,必然带来额外计算开销。
近期,Wang 等人[38]在语义分割任务中提出了一种 SR 模块,能够在低分辨率输入下保持高分辨率表示的同时减少计算量。受此启发,我们设计了一个辅助 SR 分支。与上述在网络初始阶段即进行 SR 的方法不同,本工作中的辅助 SR 模块在训练过程中引导检测主干学习高质量的高分辨率特征,不仅增强了小而密集目标的响应,也提升了空间域目标检测性能。更重要的是,该 SR 分支仅作为训练时的辅助任务,在推理阶段被移除,从而避免了任何额外计算。
III. 基线结构
如图 2 所示,基线 YOLOv5 网络主要由两部分构成:Backbone(主干)和 Head(包括 Neck)。主干用于提取低层次的纹理特征和高层次的语义特征。随后,这些特征被送入 Head:先自上而下构建增强的特征金字塔,将强语义信息向下传递;再自下而上将局部纹理和模式特征的响应向上聚合。这样便通过多尺度特征融合,解决了目标尺度多样化的问题,提升了检测性能。
在图 3 中,Backbone 采用 CSPNet[39],由多个 CBS(Convolution‑BatchNorm‑SiLu)模块和 CSP(Cross Stage Partial)模块组成。CBS 包含卷积、批归一化及 SiLu 激活[40]三步操作。CSP 则将上一层的特征图复制为两份,分别通过 1×1 卷积将通道数减半以降低计算量。其中一份特征直接连接到该阶段末端,另一份送入若干 ResNet 或 CBS 块进行进一步处理,最后再在通道维度拼接并经过一个 CBS 块融合特征。SPP(Spatial Pyramid Pooling)模块[41]由多个不同核尺寸的并行最大池化层组成,用以提取多尺度深层特征。通过堆叠 CSP、CBS 和 SPP 结构,网络能够同时获得低级纹理和高级语义信息。
局限 1:YOLOv5 中引入了 Focus 模块以减少计算量。如图 2(左下)所示,该模块将输入按像素交错切分并隔行重排,最后在通道维度拼接,实现输入的下采样,从而加速训练与推理。但此操作在一定程度上牺牲了分辨率,容易对小目标检测精度造成影响。
局限 2:YOLO 主干通过多次步幅为 2 的深度卷积将特征图尺寸不断减半,因此多尺度检测所保留的特征图远小于原始输入图像。例如,输入尺寸为 608×608 时,最后三个检测层的特征图尺寸仅为 76×76、38×38 和 19×19。低分辨率特征可能导致部分小目标遗漏。
IV. SUPERYOLO 架构
如图 2 所示,SuperYOLO 在基线结构基础上引入三项改进:
移除 Focus 模块并替换为 MF 模块,避免因下采样重组而导致的分辨率和精度下降;
选择高效的像素级融合,在像素层面融合 RGB 与 IR 模态,提取互补信息;
训练阶段添加辅助 SR 模块,重建高分辨率图像以指导主干网络在空间维度学习并保留 HR 信息,推理阶段舍弃该分支以免增加计算开销。
A. 移除 Focus
如第 III 节及图 2(左下)所示,YOLOv5 主干中的 Focus 模块通过空间域的间隔采样将输入图像切分重组,从而在通道维度拼接得到下采样图像。该操作虽能减少计算量并加速训练与推理,但会引起分辨率下降,导致小目标的空间信息丢失。鉴于小目标检测对高分辨率的依赖,我们舍弃 Focus,采用如图 4 所示的 MF 模块,以保持输入分辨率。
B. 多模态融合
利用更多信息有助于提升目标检测性能。多模态融合是将来自不同传感器的信息进行合并的有效途径。主流融合方法包括决策级、特征级和像素级融合。由于决策级融合需对各模态分支重复检测,计算开销过大,故不在 SuperYOLO 中采用。
我们提出一种像素级多模态融合(MF),以对称紧凑的方式双向提取不同模态的共享与特色信息。其流程如图 4 所示:
C. 超分辨率(Super Resolution)
如第 III 节所述,骨干网络中用于多尺度检测的特征尺寸远小于原始输入图像。现有大多数方法通过上采样操作来恢复特征尺寸,但由于纹理和模式信息在上采样过程中丢失,因此在遥感图像中检测需要高分辨率(HR)保留的小目标时,效果并不理想。
为了解决这一问题,如图 2 所示,我们引入了一个辅助的 SR 分支。该分支的设计目标有二:
帮助骨干网络提取更多的高分辨率信息,以提升检测性能;
不显著增加计算量,以保证推理速度。
因此,在推理阶段,它能够在准确性和计算时间之间取得平衡。受 Wang 等人 [38] 研究启发——其提出的 SR 方法在无需额外开销的情况下促进了分割任务——我们在框架中引入了一个简单而高效的 SR 分支。该设计在不增加计算和内存负担的前提下提升了检测精度,尤其当输入分辨率较低(LR)时效果尤为显著。
具体而言,该 SR 结构可视为一个简易的编码-解码(Encode-Decoder)模型。我们分别选取骨干网络的低层特征和高层特征,以融合局部纹理/模式信息和语义信息。如图 4 所示,我们将第 4 模块和第 9 模块的输出分别作为低层和高层特征。编码器部分将这两类特征进行集成:
低层特征处理:对低层特征先进行一个 CR 模块(卷积 + ReLU);
高层特征处理:先通过上采样操作将其空间尺寸与低层特征对齐,再与低层特征拼接,随后依次经过两个 CR 模块融合。
在解码器部分,LR 特征被放大到 HR 空间,最终的 SR 输出尺寸是输入图像尺寸的两倍。如图 5 所示,解码器由三个反卷积层(deconvolutional layers)构成。SR 分支通过学习空间维度的映射,将高分辨率信息传递回主干分支,从而提升目标检测性能。此外,我们还尝试将 EDSR [43] 作为编码器,以探索 SR 表现及其对检测性能的影响。
为了更直观地说明效果,我们在图 6 中可视化了 YOLOv5s、YOLOv5x 和 SuperYOLO 的骨干特征。所有特征均上采样至与输入图像相同的尺度进行对比。通过对比图 6 中(c)、(f)与(i);(d)、(g)与(j);(e)、(h)与(k)的成对图像,可以观察到在 SR 分支的辅助下,SuperYOLO 所提取的物体结构更清晰、分辨率更高。最终,我们通过 SR 分支在高质量 HR 表征上获得了丰硕成果,并使用 YOLOv5 的 Head 进行小目标检测。
图6所示。相同输入的YOLOv5s、YOLOv5x和SuperYOLO主干特征级可视化:(a) RGB输入,(b) IR输入;©、(d)、(e)为YOLOv5s的特征;(f)、(g)、(h)为YOLOv5x的特征;(i)、(i)、(k)为SuperYOLO的特征。特征被上采样到与输入图像相同的尺度以进行比较。©、(f)和(i)是第一层的特征。(d)、(g)、(j)为底层特征。(e)、(h)、(k)为同一深度各层的高层特征。
D、损失函数
实验结果
D. 消融实验
首先,我们通过一系列在验证集第一折上进行的消融实验来验证所提方法的有效性。
基线框架验证
在表 I 中,我们从层数、参数量和 GFLOPs 三个方面评估了不同基础检测框架的模型规模和推理能力,并以 mAP50(IOU = 0.5 下的平均精度)衡量其检测性能。虽然 YOLOv4 的检测精度最高,但其层数比 YOLOv5s 多 169 层(393 vs. 224),参数量是 YOLOv5s 的 7.4 倍(52.5M vs. 7.1M),GFLOPs 是 YOLOv5s 的 7.2 倍(38.2 vs. 5.3)。相比之下,YOLOv5s 的 mAP 略低于 YOLOv4 和 YOLOv5m,但其层数、参数量和 GFLOPs 均远小于其他模型,更易于落地部署并实现实时推理。上述事实验证了以 YOLOv5s 为基线检测框架的合理性。
移除 Focus 模块的影响
如第 IV-A 节所述,Focus 模块会降低输入分辨率,不利于遥感图像中小目标的检测。我们在四种 YOLOv5 框架(s/m/l/x)上进行了对比实验(此处结果均在 RGB 与 IR 像素级拼接融合后获得)。表 II 显示,移除 Focus 后,YOLOv5s 的 mAP50 从 62.2% 提升至 69.5%,YOLOv5m 从 64.5% 提升至 72.2%,YOLOv5l 从 63.7% 提升至 72.5%,YOLOv5x 从 64.0% 提升至 69.2%。这是因为移除 Focus 后既避免了分辨率下降,又保留了小目标的空间间隔信息,从而减少了漏检。总体而言,移除 Focus 模块可让各框架的 mAP50 提升超过 5%
与此同时,移除 Focus 会带来推理计算量(GFLOPs)的增加:YOLOv5s 从 5.3 增至 20.4,YOLOv5m 从 16.1 增至 63.6,YOLOv5l 从 36.7 增至 145,YOLOv5x 从 69.7 增至 276.6。但即便如此,YOLOv5s-noFocus 的 20.4 GFLOPs 仍低于 YOLOv3(52.8)、YOLOv4(38.2)和 YOLOrs(46.4)的计算量;移除 Focus 后模型参数也略有减少。综上,为了在检测更小目标时保留高分辨率,应以检测精度为优先,采用卷积替代 Focus 模块。
不同融合方式比较
为评估各融合方法的效果,我们在 YOLOv5-noFocus 上比较了五种融合结果(详见第 IV-B 节与图 7)。fusion1–fusion4 分别表示在第 1、2、3、4 个块中进行的像素级拼接融合;在特征级融合中,将 IR 图像扩展为三通道以与 RGB 保持一致。表 III 中列出了不同方法的参数量、GFLOPs 和 mAP50:
像素级拼接:7.0705M 参数,20.37 GFLOPs,69.5% mAP50
像素级 MF 模块:7.0897M 参数,21.67 GFLOPs,70.3% mAP50(最佳)
特征级融合的参数量接近像素级融合,原因在于其融合发生在中间层,而非双模型最前端;且各融合前模块不同,导致通道数与参数量略异。实验还对比了多阶段特征级融合(图 7©)与像素级融合:其 mAP50 仅为 59.3%,计算量为 34.56 GFLOPs,参数量 7.7545M,均高于像素级融合。这表明像素级创新融合在保持低计算成本的同时,更能有效提升检测精度。最终,我们仅采用像素级融合以确保最低的计算开销。
高分辨率影响
我们在表 IV 中比较了不同训练/测试分辨率组合的性能。在训练和测试分辨率相同的情况下,将 YOLOv5s 的输入从 512→1024 后,mAP50 从 62.2% 提升至 77.7%(增幅 15.5%),GFLOPs 从 5.3 增至 21.3。同理,YOLOv5s-noFocus(1024)较(512)提升 9.8%(79.3% vs. 69.5%)。这说明提高输入分辨率可同时提高召回率和精度,减少漏检与误检。然而,高分辨率也带来更高计算量:YOLOv5s 的 GFLOPs 从 5.3→21.3;YOLOv5s-noFocus 从 20.4→81.5。
当训练/测试分辨率不一致时,mAP50 显著下降(如 10.6% vs. 62.2%、48.2% vs. 77.7%、13.4% vs. 69.5%、62.9% vs. 79.3%),可能因训练与测试时目标尺度不匹配,导致预测框尺寸不再适合测试图像中的目标。
最后,YOLOv5s-noFocus+SR 在 512×512 分辨率下的 mAP50 达到 78.0%,接近 YOLOv5s-noFocus(1024)的 79.3%,且 GFLOPs 仅为 20.4(等同于 LR 512 下的值)。这表明所提 SR 分支能够在测试阶段通过下采样降低计算量,同时保持与高分辨率输入相当的检测精度,充分体现了其优势。
- 超分辨率分支的影响
表 V 中列出了一些关于 SR 分支的消融实验结果。与普通的上采样操作相比,加入超分辨率网络的 YOLOv5s-noFocus 在 mAP50 上提升了 1.8%。这是因为 SR 网络是一种可学习的上采样方式,具有更强的重建能力,能够帮助骨干网络提取更丰富的特征以提升检测效果。
此外,我们在主干网络中删除了 PANet 结构及负责中尺度和大尺度目标检测的两个检测头,因为在诸如 VEDAI 的遥感小目标数据集中,仅使用小尺度检测头即可满足需求。仅保留一个检测头后,模型参数量可从 7.0705M 降至 4.8259M,GFLOPs 从 20.37 降至 16.68,同时 mAP50 从 78.0% 提升至 79.0%。
当我们在 SR 分支中用 EDSR 网络替代三层反卷积解码器,并用 L1 损失替换原先的 L2 损失时,SR 分支在超分重建任务上的表现得到进一步加强,且对检测主干的特征提取也起到了更有力的辅助作用,加速了检测网络的收敛,从而进一步提升了整体检测性能。这表明超分辨率与目标检测两者在特征提取层面是互补且协同增效的。
表 VI 展示了在不同基线网络上加入 SR 分支后的精度-复杂度折中效果。与各自的“裸”基线相比,加入 SR 分支后:
YOLOv3+SR 的 mAP50 比 YOLOv3 提升了 9.2%;
YOLOv4+SR 的 mAP50 比 YOLOv4 提升了 3.3%;
YOLOv5s+SR 的 mAP50 比 YOLOv5s 提升了 2.2%。
值得注意的是,SR 分支在推理阶段可以被移除,因此并不会引入额外的参数或计算开销。这一点尤为难得,因为 SR 分支无需对检测网络进行大规模重构即可带来显著增益。该 SR 分支具备良好的通用性和可扩展性,可直接嵌入到现有的全卷积网络(FCN)框架中。
E. 与现有方法的比较
图 8 展示了在多种场景下,YOLO 系列方法与 SuperYOLO 的可视化检测结果。可以看出,SuperYOLO 能准确检测出在 YOLOv4、YOLOv5s 和 YOLOv5m 中漏检、误分类或模糊识别的目标。遥感图像中的小目标检测难度较大,尤其是 Pickup 与 Car、Van 与 Boat 等外观相似的类别易被混淆。因此,除了定位精度外,提高检测分类性能在该任务中尤为必要,而所提 SuperYOLO 在此方面表现优异。
表 VII 汇总了 YOLOv3 [47]、YOLOv4 [48]、YOLOv5s-x [19]、YOLOrs [27]、YOLO-Fine [49]、YOLOFusion [50] 及本文 SuperYOLO 的检测性能。可见,多模态(RGB+IR)模式下的大多数类别 AP 明显高于单模态(仅 RGB 或 IR),整体 mAP50 亦优于单一模态。这进一步验证了多模态融合通过信息互补提升目标检测效果的有效性。然而,多模态融合所带来的参数与计算量的略微增加,也凸显了像素级融合优于特征级融合的必要性。
在整体 mAP50 上,SuperYOLO 超越了所有对比框架(YOLOFusion 除外)。YOLOFusion 略胜一筹,因其使用了在 MS COCO [7] 上预训练的权重,但其参数量约为 SuperYOLO 的三倍。YOLO-Fine 在单模态下表现良好,但缺乏多模态融合技术的开发。值得注意的是,在多模态模式下,SuperYOLO 相比 YOLOv5x 提升了 12.44% 的 mAP50,同时参数量和 GFLOPs 分别仅为 YOLOv5x 的约 1/18 和 1/3.8。
此外,Car、Pickup、Tractor 和 Camping 等训练样本最多的类别上,SuperYOLO 的性能提升尤为显著。YOLOv5s 虽在 GFLOPs 上占优(得益于 Focus 模块压缩输入),却在小目标检测上性能欠佳,SuperYOLO 相较于其提升了 18.30% 的 mAP50。总体来看,所提 SuperYOLO 在速度—精度折中方面,相较于最先进的方法展现了优异的性能。
F. 在单模遥感图像上的泛化能力
目前,虽然遥感领域存在大量的多模态图像,但因人工标注成本高昂,目标检测任务的标注数据集仍然匮乏。为验证所提网络的泛化能力,我们选取三个单模态大规模数据集——DOTA、DIOR 和 NWPU VHR-10,与多种一阶/二阶检测方法进行对比。
DOTA
提出时间:2018 年,专为遥感图像目标检测设计。
数据规模:包含 2,806 幅大图,共 188,282 个标注实例,分 15 类。
原图尺寸:4,000×4,000 像素;实验中裁剪为 1,024×1,024,重叠 200 像素。
划分方式:1/2 原图作训练,1/6 作验证,1/3 作测试;输入尺寸统一为 512×512。
NWPU VHR-10
提出时间:2016 年。
数据规模:800 幅图像,其中 650 幅含有目标;采用 520 幅作训练,130 幅作测试。
类别数:10 类;输入尺寸固定为 512×512。
DIOR
提出时间:2020 年。
数据规模:23,463 幅图像,192,472 个实例。
划分方式:11,725 幅训练,11,738 幅测试;输入尺寸统一为 512×512。
为适应上述数据集,我们对训练配置做了如下调整:NWPU VHR-10 与 DIOR 训练 150 个 epoch,DOTA 训练 100 个 epoch;批量大小:DOTA、DIOR 为 16,NWPU 为 8。
对比方法
我们选用了 11 种代表性方法进行对比,包括:
一阶段算法:YOLOv3 [47]、FCOS [53]、ATSS [54]、RetinaNet [51]、GFL [52]
两阶段方法:Faster R-CNN [5]
轻量化模型:MobileNetV2 [55]、ShuffleNet [56]
蒸馏方法:ARSD [59]
专为遥感设计:FMSSD [58]、O2DNet [57]
对比结果(表 VIII)
在 DOTA、NWPU VHR-10、DIOR 三个数据集上,SuperYOLO 分别达到了 69.99%、93.30% 和 71.82% 的 mAP50,模型参数(7.70 M、7.68 M、7.70 M)与 GFLOPs(20.89、20.86、20.93)均远低于其他最先进检测器。
由于这些数据集中存在较大尺度目标(如操场等),我们在 SuperYOLO 中保留了 PANet 结构及三路检测头以增强对小、中、大尺度目标的检测能力,因此其参数量相较于表 VII 中的多模态实验略有增加。虽然 FMSSD 和 O2DNet 在性能上与我们的轻量级模型相近,但二者的参数量和 GFLOPs 均大幅超出,计算资源开销巨大。相比之下,SuperYOLO 在检测效率和准确率之间取得了更优的平衡。
VI. 结论与未来工作
在本文中,我们提出了 SuperYOLO,一种基于广泛使用的 YOLOv5s 的实时轻量化网络,旨在提升遥感图像中小目标的检测性能。首先,我们通过移除 Focus 模块以避免分辨率下降,显著改善了基线网络,减少了小目标的漏检;其次,我们研究了多模态融合技术,通过信息互补进一步提升检测效果;最关键的是,我们引入了一个简单灵活的超分辨率(SR)分支,帮助骨干网络构建高分辨率特征表示,使得仅凭低分辨率输入也能轻松识别大背景下的小目标。我们在推理阶段移除了 SR 分支,保持原网络结构和相同的 GFLOPs,实现了不增加计算量的高精度检测。通过以上多项创新,SuperYOLO 在 VEDAI 数据集上以更低的计算开销达到了 75.09% 的 mAP50,相较于 YOLOv5s 提升了 18.30%,相比 YOLOv5x 提升了超过 12.44%。
我们的方法在性能和推理效率上均体现了超分辨率技术在遥感任务中的价值,为多模态目标检测的未来研究开辟了新方向。未来工作中,我们将聚焦于设计更低参数量的高分辨率特征提取模式,以进一步满足实时性和高精度的双重需求
相关文章:
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测之论文阅读
摘要 在遥感影像(RSI)中,准确且及时地检测包含数十像素的多尺度小目标仍具有挑战性。现有大多数方法主要通过设计复杂的深度神经网络来学习目标与背景的区分特征,常导致计算量过大。本文提出一种兼顾检测精度与计算代价的快速准确…...
k6学习k6学习k6学习k6学习k6学习k6学习
1.安装go 2.安装 xk6 (k6 扩展构建工具): go install go.k6.io/xk6/cmd/xk6latest3.构建自定义 k6 二进制文件(集成 faker 扩展): xk6 build --with github.com/gkarthiks/xk6-fakerlatest构建报错处理(代码拉取失败)࿱…...
ubuntu 安装mq
一、安装依赖 编译 Erlang 需要以下依赖库和工具: sudo apt update sudo apt install -y build-essential autoconf libncurses5-dev libssl-dev m4 unixodbc-dev libwxgtk3.0-gtk3-dev libgl1-mesa-dev libglu1-mesa-dev 二、解压源码包 tar -xzvf otp_src_21.…...
优化 Spring Boot 应用启动性能的实践指南
1. 引言 Spring Boot 以其“开箱即用”的特性深受开发者喜爱,但随着项目复杂度的增加,应用的启动时间也可能会变得较长。对于云原生、Serverless 等场景而言,快速启动是一个非常关键的指标。 2. 分析启动过程 2.1 启动阶段概述 Spring Boot 的启动流程主要包括以下几个阶…...
ubuntu18.04编译qt5.14.2源码
ubuntu18.04编译qt5.14.2源码 文章目录 ubuntu18.04编译qt5.14.2源码[toc]1 前言2 参考文档3 下载源码3.1 方法13.2 方法23.3 方法3 4 ubuntu编译qt源码4.1 环境准备4.2 设置交换分区大小4.3 编译源码4.4 添加环境变量4.5 验证编译结果4.6 编译帮助文档(qch…...
leetcodehot100刷题——排序算法总结
排序算法总结 冒泡排序介绍步骤(以升序排序为例)算法实现复杂度分析时间复杂度空间复杂度 是否为稳定排序:是稳定排序的定义 选择排序介绍步骤(以升序排序为例)算法实现复杂度分析时间复杂度空间复杂度 是否为稳定排序…...
多用途商务,电子产品发布,科技架构,智能手表交互等发布PPT模版20套一组分享
产品发布类PPT模版20套一组:产品发布PPT模版https://pan.quark.cn/s/25c8517b0be3 第一套PPT模版是一个总结用的PPT封面,背景浅灰色,有绿色叶片和花朵装饰,深绿色标题,多个适用场景和占位符。突出其清新自然的设计和商…...
2025年- H29-Lc137- 19.删除链表的倒数第N个节点(快慢指针)---java版
1.题目描述 2.思路 快慢指针都在虚拟头节点,然后让快指针先走n1步,接下来,快慢指针以前移动,直到快指针指向null,慢指针指向被删节点的前一个节点。 3.代码实现 方法一:不带测试用例 /*** Definition …...
新电脑软件配置二:安装python,git, pycharm
安装python 地址 https://www.python.org/downloads/ 不是很懂为什么这么多版本 安装windows64位的 这里我是凭自己感觉装的了 然后cmd输入命令没有生效,先重启下? 重启之后再次验证 环境是成功的 之前是输入的python -version 命令输入错误 安装pyc…...
医学影像开发的开源生态与技术实践:从DCMTK到DICOMweb的全面探索
🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C++, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C++、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle,mysql,postgresql等进行开发应用…...
【HarmonyOS 5开发入门】DevEco Studio安装配置完全指南
⭐本期内容:【HarmonyOS4+NEXT】Button组件核心特性 🏆系列专栏:鸿蒙HarmonyOS:探索未来智能生态新纪元 文章目录 前言下载开发工具安装开发工具配置开发环境新建项目项目结构概述运行项目Preview预览模拟器运行 报错处…...
出现 Uncaught ReferenceError: process is not defined 错误
在浏览器环境中,process 对象是 Node.js 环境特有的,因此当你在浏览器中运行代码时,会出现 Uncaught ReferenceError: process is not defined 错误。这个错误是因为代码里使用了 process.env.BASE_URL,而浏览器环境下并没有 proc…...
如何实现RTSP和RTMP低至100-200ms的延迟:直播SDK的技术突破
在实时音视频传输中,低延迟是直播应用的核心技术要求之一。无论是在线教育、远程医疗,还是实时互动直播,延迟过大会影响用户体验,甚至导致应用无法正常使用。大牛直播SDK(SmartMediaKit)在RTSP和RTMP播放器…...
linux-----------------库制作与原理(下)
1.ELF文件 要理解编译链链接的细节,我们不得不了解⼀下ELF⽂件。其实有以下四种⽂件其实都是ELF⽂件: • 可重定位⽂件(Relocatable File ) :即 xxx.o ⽂件。包含适合于与其他⽬标⽂件链接来创 建可执⾏⽂件或者共享…...
一种开源的高斯泼溅实现库——gsplat: An Open-Source Library for Gaussian Splatting
一种开源的高斯泼溅实现库——gsplat: An Open-Source Library for Gaussian Splatting 文章目录 一种开源的高斯泼溅实现库——gsplat: An Open-Source Library for Gaussian Splatting摘要Abstract1. 基本思想1.1 设计1.2 特点 2. Nerfstudio&Splatfacto2.1 Nerfstudio2.…...
Embedding 模型详解:架构、训练与 LLM 的区别
1. 什么是 Embedding 模型? Embedding 模型的核心使命是将离散的、高维的文本数据(例如单个词语、短语、句子、段落乃至整篇文档)转化为稠密的 (dense)、低维的 (low-dimensional)、连续的 (continuous) 向量表示。这些向量被称作“嵌入 (Em…...
网络的知识的一些概念
1.什么是局域网,什么是广域网 局域网(Local area network)也可以称为本地网,内网,局域网有这几个发展经历: 最开始电脑与电之间是直接用网线连接的 再后来有了集线器() 再后来出…...
NAT(网络地址转换)逻辑图解+实验详解
原理 NAT(Network Address Translation,网络地址转换) 是一种网络技术,用于在IP数据包通过路由器或防火墙时,修改其源IP地址或目标IP地址,以实现不同网络之间的通信。 基础概念 本来NAT是来解决 IPv4 地…...
深入解析Spring Boot与Kafka集成:构建高性能消息驱动应用
深入解析Spring Boot与Kafka集成:构建高性能消息驱动应用 引言 在现代分布式系统中,消息队列是实现异步通信和解耦的重要组件。Apache Kafka作为一种高性能、分布式的消息系统,被广泛应用于大数据和实时数据处理场景。本文将详细介绍如何在…...
Linux的内存泄漏问题及排查方法
内存泄漏是指在计算机程序中,已不再被使用的内存未被正确释放,导致内存占用随时间累积,进而引发系统内存不足、性能下降甚至崩溃的问题。在Linux系统中,开发者和运维人员可通过以下方法排查和解决内存泄漏问题: 1. 使…...
Java基础知识总结(超详细整理)
一:概述 1.1Java类及类的成员 属性、方法、构造器、代码块、内部类 (1)数组 java虚拟机内存划分 各区域作用 内存解析 基本使用 两个变量指向一个一维数组 没有new就不会在堆里新开辟空间 (2)对象数组 (3&a…...
Qt Widgets模块功能详细说明,基本控件:QPushButton(二)
一、基本控件(Widgets) Qt 提供了丰富的基本控件,如按钮、标签、文本框、复选框、单选按钮、列表框、组合框、菜单、工具栏等。 1、QPushButton 1.1、概述 (用途、继承关系) QPushButton 是 Qt 框架中用于创建按钮的控件,它的主…...
【MySQL成神之路】MySQL常见命令汇总
目录 MySQL常用命令总结 1. 数据库操作 2. 表操作 3. 数据操作(DML) 4. 索引与优化 5. 用户与权限管理 6. 备份与恢复 7. 事务控制 8. 常用函数 9. 系统状态与日志 总结 MySQL常用命令总结 MySQL作为最流行的关系型数据库之一,提供…...
UnLua源码分析(一)初始化流程
UnLua源码分析(一)初始化流程 接入插件启动注册设置默认参数集注册回调SetActivePostLoadMapWithWorldULuaEnvLocator启动Lua虚拟机初始化UE相关的Lua Lib创建与Lua交互的数据结构注册静态导出的类,函数,枚举Lua层初始化 UUnLuaMa…...
非线性1 修改
第一章为读者介绍了非线性动力学与混沌理论的基本概念、发展历史以及应用领域。 1.1 动力学简史: 从牛顿力学开始,介绍动力学作为物理学分支的发展历程。重点介绍了庞加莱对混沌现象的早期探索,以及20世纪60年代洛伦兹方程的发现࿰…...
系统性能不达标,如何提升用户体验?
当系统性能不达标时,要想有效提升用户体验,必须从性能优化、前后端协同、用户感知改善、监控预警机制四个关键维度切入。其中,性能优化是最直接有效的策略,它通过代码优化、资源压缩、缓存机制、CDN加速等手段,显著提升…...
【Linux】进程的基本概念
目录 概念描述进程-PCB如何查看进程通过系统目录进行查看通过ps指令进行查看 通过系统调用获取进程的PID和PPID(进程标⽰符)通过系统调用创建子进程通过一段代码来介绍fork为什么要有子进程?fork为什么给子进程返回0,给父进程返回子进程的PIDfork函数到底…...
mongodb管理工具的使用
环境: 远程服务器的操作系统:centOS stream 9; mongoDB version:8.0; 本地电脑 navicat premium 17.2 ; 宝塔上安装了mongoDB 目的:通过本地的navicat链接mongoDB,如何打通链接,分2步: 第一步:宝塔-&…...
面试中的线程题
原文链接:线程题大全 Java 并发库同步辅助类 CountDownLatch 工作机制:初始化一个计数器,此计数器的值表示需要等待的事件数量。 提供了两个主要方法: await():当一个线程调用此方法时,它将阻塞&#…...
计算机系统的层次结构
计算机系统的层次结构 一, 计算机系统的层次结构的定义 计算机的一个赢软件组成的综合体. 因为面对的应用范围越来越广, 所以必须有复杂的系统软件和硬件的支持. 软/硬件的设计者和使用者从不同的角度, 不同的语言来对待同一个计算机系统, 因此他们看到的计算机系统的属性对计…...
[特殊字符] SSL/TLS 中的密钥协商流程笔记
✅ 背景说明: SSL/TLS 为了确保通信保密性,结合使用了: 非对称加密(用于密钥交换) 对称加密(用于数据加密) 🔁 客户端主导密钥协商的完整流程如下: 1️⃣ 客户端发起…...
多模态大语言模型arxiv论文略读(八十一)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文标题:What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文作者:Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai …...
SpringBoot(一)--- Maven基础
目录 前言 一、初始Maven 1.依赖管理 2.项目构建 3.统一项目结构 二、IDEA集成Maven 1.Maven安装 2.创建Maven项目 2.1全局设置 2.2 创建SpringBoot项目 2.3 常见问题 三、单元测试 1.JUnit入门 2.断言 前言 Maven 是一款用于管理和构建Java项目的工具ÿ…...
如何使用WordPress创建美食博客
不管你是否意识到,食物是我们生活的核心。有些人将其用作燃料,而另一些人则将食谱作为一种艺术形式呈现。如果您属于后者,并且想创建一个美食博客来分享您的热情,那么WordPress是一个顶级平台。 几乎每个话题都有一个博客利基&am…...
SAP集团内部公司间交易自动开票
SAP集团内部公司间交易自动开票(非STO/EDI模式) 集团内部公司间采购与销售业务,在确认相应单据无误后,为减少人工开票业务, 可以用系统标准功能来实现自动开票。 1.采购发票自动开票(ERS) T-CODE:BP,勾选“基于收货的发票校验”、“自动G…...
代码审计-php框架开发,实战tp项目,打击微交易,源码获取,扩大战果
实战,不安全写法引发的注入 这个bc靶场源码没有,看老师演示 打开很明显的tp框架源码 拿到tp框架之后第一步,搜索版本信息5.0.5 两个思路 1.代码的不安全写法 2.版本自身存在的漏洞 全局搜索where看看也没有不安全的 哎?&…...
Atcoder Beginner Contest 406
比赛链接:ABC406 A - Not Acceptable 将小时转换成分钟直接进行判断。 时间复杂度: O ( 1 ) O(1) O(1)。 #include <bits/stdc.h> using namespace std;int main() {ios::sync_with_stdio(false); cin.tie(nullptr); cout.tie(nullptr);int a,…...
02 K8s双主安装
00 前提准备 # 设置好主机名并添加hosts解析主机名IP地址身份master01172.2.25.50主Mastermaster02172.2.25.51备Masternode01172.2.25.52节点1node02172.2.25.53节点2node03172.2.25.54节点3 01 使用脚本安装Docker # Docker脚本文件 https://node-siyuan.oss-cn-beijing.a…...
分别用 语言模型雏形N-Gram 和 文本表示BoW词袋 来实现文本情绪分类
语言模型的雏形 N-Gram 和简单文本表示 Bag-of-Words 语言表示模型简介 (1) Bag-of-Words (BoW) 是什么? *定义:将文本表示为词频向量,忽略词序和语法,仅记录每个词的出现次数。 **示例: 句子1:I love …...
2_Spring【IOC容器中获取组件Bean】
Spring中IOC容器中获取组件Bean 实体类 //接口 public interface TestDemo {public void doSomething(); } // 实现类 public class HappyComponent implements TestDemo {public void doSomething() {System.out.println("HappyComponent is doing something...")…...
一次页面假死分析
现象:系统的几个功能若干次切换,页面假死,无反应 上图,不是每次切换都假死,但非常容易重现,每次页面假死都在getValidatorJSONInfo这个调用后 getValidatorJSONInfo调用已返回,但返回内容页面挂…...
WPS多级标题编号以及样式控制
WPS多级标题编号以及样式控制 上一篇:WPS自动生成图表目录以及样式控制 阅读提示:请先阅读完本篇内容再操作,避免出现其他错误。 初始样式: 1.1 步骤演示 说明:以3级目录为例 标题1样式:黑体,…...
方差是什么?
一、方差是什么? 方差(Variance)是概率论和统计学中衡量数据离散程度(即数据与平均值的偏离程度)的核心指标。 通俗理解:方差越大,数据越“分散”“波动大”;方差越小,数据越“集中”“稳定”。 二、方差的公式(以样本数据为例) 计算步骤: 第一步:求平均值 ( …...
Java核心API实战:从字符串到多线程全解析
Java常用API详解与代码实践 一、字符串处理类 1. String类 // 字符串基础操作 String str "Hello,Java!"; System.out.println(str.substring(7)); // 输出"Java!" System.out.println(str.indexOf("Java")); // 输出7// 正则表达式匹配 Str…...
低代码AI开发新趋势:Dify平台化开发实战
在人工智能快速发展的今天,AI应用的开发方式也在不断演变。从传统的手写代码到如今的低代码甚至零代码开发,技术的进步让更多的非专业开发者也能轻松上手。本文将带你走进Dify平台化开发的世界,探索如何通过这一强大的低代码AI开发平台&#…...
基于First Order Motion与TTS的AI虚拟主播系统全流程实现教程
前言:多模态虚拟主播的技术革命 在AI内容生成领域,虚拟主播技术正经历从2D到3D、从固定模板到个性化定制的跨越式发展。本文将深入解析如何通过Python技术栈构建支持形象定制与声音克隆的AI虚拟主播系统,涵盖从人脸建模到多模态融合的全流程…...
中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行
作者: Ji Zhao and Xiao Lin 单位:中科院自动化研究所 论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models 论文链接:https://arxiv.org/pdf/2503.08302 主要贡献 硬件-软件协同设计框…...
DOM知识点
DOM(Document Object Model)即文档对象模型,是用于表示和操作HTML、XML文档的编程接口。以下是关于DOM的一些知识点总结: 基本概念 • DOM将文档解析为一个由节点(Node)组成的树形结构,每个节…...
设备预测性维护的停机时间革命:中讯烛龙如何用AI重构工业设备管理范式
在工业4.0的智能化浪潮中,非计划停机每年吞噬企业3%-8%的产值。中讯烛龙预测性维护系统通过多模态感知矩阵分布式智能体的创新架构,实现设备健康管理的范式跃迁,帮助制造企业将停机时间压缩70%以上。本文将深度解析技术实现路径与行业级实践方…...
JMeter 教程:使用 HTTP 请求的参数列表发送 POST 请求(form 表单格式)
目录 ✅ 教程目的 🛠️ 准备工作 📄 操作步骤 第一步:新建测试计划 第二步:添加 HTTP 请求 第三步:添加参数列表(表单参数) 第四步:添加结果查看器 第五步:运行测…...