当前位置：首页 > news >正文

跟着问题学3.2——Fast R-CNN详解及代码实战

news 来源：原创 2025/7/25 9:10:15

R-CNN的不足

2014年，Ross Girshick提出RCNN，成为目标检测领域的开山之作。一年后，借鉴空间金字塔池化思想，Ross Girshick推出设计更为巧妙的Fast RCNN（https://github.com/rbgirshick/fast-rcnn），极大地提高了检测速度。Fast RCNN的提出解决了RCNN结构固有的三个弊端：

繁琐的多阶段训练：RCNN在训练时，首先需要在推荐区域上微调卷积网络，然后利用提取的卷积特征针对每个类别训练一个SVM分类器，最后还需要基于卷积特征进行边界框回归训练；
高空间和时间成本：RCNN在训练SVM和回归器时，需在磁盘上对推荐区域的卷积特征进行读写，内存和时间消耗较为严重；
检测速度慢：检测时，需要对每个推荐区域进行特征提取，计算重复性高，导致检测速度很慢。

Fast RCNN方法解决了RCNN方法三个问题：

问题一：测试时速度慢

RCNN一张图像内候选框之间大量重叠，提取特征操作冗余。

本文将整张图像归一化后直接送入深度网络。在邻接时，才加入候选框信息，在末尾的少数几层处理每个候选框。

问题二：训练时速度慢

原因同上。

在训练时，本文先将一张图像送入网络，紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。

问题三：训练所需空间大

RCNN中独立的分类器和回归器需要大量特征作为训练样本。
本文把类别判断和位置精调统一用深度网络实现，不再需要额外存储。

RCNN 慢的原因主要是因为识别几千个子图片的计算量非常庞大，特别是这几千个子图片的范围很多是重合的，导致了很多重复的计算。Fast-RCNN 着重改善了这一部分，首先会针对整张图片生成一个与图片长宽相同 (或者等比例缩放) 的特征数据，然后再根据可能包含对象的区域截取特征数据，然后再根据截取后的子特征数据识别分类。RCNN 与 Fast-RCNN 的区别如下图所示：

遗憾的是 Fast-RCNN 只是改善了速度，并不会改善正确率。但下面介绍的例子会引入一个比较重要的处理，即调整区域范围，它可以让模型给出的区域更接近实际的区域。

Fast R-CNN的网络框架

从图中可以看到，R-CNN的网络框架结构包括4个核心部分，首先对整张图片，使用CNN模型在该区域上进行前向传播来提取特征图，然后在特征图中寻找对应候选区域的候选特征区域，并保存映射比例以将最终特征图对应到原输入图，然后候选特征区域经过全连接层映射为特征向量，这些特征向量随后分别被输入到全连接层，以判断该区域是否包含目标，同时还有一个边界框回归器用于精确定位目标的位置。因此，接下来，我们分别看一下这四个模块是如何工作的。

Fast R-CNN的输入输出

在 RCNN 中，传给 CNN 模型的图片是经过缩放的子图片，而在 Fast-RCNN 中我们需要传原图片给 CNN 模型，那么原图片也需要进行缩放。缩放使用的方法是填充法，如下图所示：

卷积网络提取特征

获取到缩放后的输入图片，论文中采用vgg16_bn作为模型特征提取器。在前面的文章中我们已经了解过，CNN 模型可以分为卷积层，池化层和全连接层，卷积层，池化层用于抽取图片中各个区域的特征，全连接层用于把特征扁平化并交给线性模型处理。在 Fast-RCNN 中，我们不需要使用整张图片的特征，只需要使用部分区域的特征，所以 Fast-RCNN 使用的 CNN 模型只需要卷积层和池化层 (部分模型池化层可以省略)，卷积层输出的通道数量通常会比图片原有的通道数量多，并且长宽会按原来图片的长宽等比例缩小。

以本文介绍的Fast RCNN模型为例，其输入图像张量大小（channels，width，height）为 [3, 512, 512]，经过vgg16_bn特征提取得到输出feature维度为 [512, 16, 16]。过程中数据经过5次2*2的MaxPool，特征进行了32倍缩放，相应地原边界框位置和大小也会进行等比例缩放。

ROI 池化

R-CNN算法实现过程中，需要将生成的所有推荐区域（~2k）缩放到同一大小后，全部走一遍卷积网络CNN，以提取相应特征进行边界框预测，这个过程极为耗时。同时，由于这2k张图片均来源于同一张输入，卷积网络会进行大量重复性计算。Fast RCNN则完全不同，其输入图片只进行一次CNN计算，以获得整幅图像的特征。而推荐区域的特征则直接利用区域池化技术，根据相应的边界框在全图特征上进行提取，大大降低了计算成本。

和RCNN一样，Fast RCNN也通过ss方法产生大量的候选区域（~2k）。虽然分类器能够去除大量背景区域，但是仍然有较多的目标区域，会得较多的目标检测框。这些检测框大部分都是重叠的，需要进行筛选。非极大值抑制（Non-Maximum Supression，后续称之为 nms）就是一种候选框选取方法。

非极大值抑制nms算法流程

非极大值抑制通过目标置信度对边界框进行筛选，其具体流程如下：

（1）初始化输出列表 out_bboxes = [ ]；

（2）获取输入边界框 in_bboxes 对应的目标类别置信度；

（3）将照置信度由高到低的方式对边界框进行排序；

（4）选取置信度最高的边界框 bbox_max，将其添加到 out_bboxes 中，并计算它与其他边界框的IoU结果；

（5）IoU大于阈值的表明两区域较为接近，边界框重叠性较高，将这些框和bbox_max从 in_bboxes 中移除；

（6）重复执行3~5过程，直到 in_bboxes 为空，此时 out_bboxes 即最终保留的边界框结果。

Fast-RCNN 根据整张图片生成特征以后，下一步就是抽取区域特征 (Region of interest Pooling) 了，抽取区域特征简单的来说就是根据区域在图片中的位置，截区域中该位置的数据，然后再缩放到相同大小，方便全连接层类型的分类器和回归器使用，如下图所示：

抽取区域特征的层又称为 ROI 层。

如果特征图(feature map)上的RoI 大小是h∗w(这里忽略了通道数)，将这个特征图划分为h/H∗w/W个网格，每个网格大小为H*W，对每个网格做max pooling，这样得到pooling以后的大小就是H∗W（在文章中，VGG16网络使用H=W=7的参数，上图中绘制的是6x6的）。无论原始的RoI多大，最后都转化为7*7大小的特征图。本文将RoI池化为7*7的输出，其实这一层就是SPP的特例，SPP金字塔只有一层就是这样的。

假设输入模型的某一边界框 ss_box = (50, 72, 260, 318)，经过等比例缩放后对应到特征图上的候选边界框 ss_box' = (50/32, 72/32, 260/32, 318/32) = (1.56, 2.25, 8.13, 9.94)。ss_box'值存在小数，此时的处理方法是直接向下取整，得到ss_box' = (1, 2, 8, 9）,也就是说特征图上对应的 roi_feature = features[:, 2: 2 + 9, 1: 1 + 8]，对应维度为 [512, 9, 8]。该特征是需要输入分类器和回归器的，由于两者是全连接层结构，输入特征尺寸是固定的，因此需要使用一定方法将其缩放到对应尺寸。

如果特征的长宽和图片的长宽相同，那么截取特征只需要简单的取对应位置和下标操作就好，但如果特征的长宽比图片的长宽要小，那么就需要使用近邻插值法 (Nearest Neighbor Interpolation) 或者双线插值法 (Bilinear Interpolation) 进行截取，使用双线插值法进行截取的 ROI 层又称作 ROI Align（这点在Mask R-CNN中介绍）。截取以后的缩放可以使用 MaxPool，近邻插值法或双线插值法等算法。

分类器和回归器

不同于R-CNN使用SVM模型分类，Fast R-CNN的分类器和回归器都是全连接层结构，由于vgg16_bn输出通道为512，经过区域池化后特征长宽固定，因此将其定义如下：边界框回归精确物体位置。

举个简单的例子，如果区域内有脸的左半部分，那么模型在经过学习后应该可以判断出区域应该向右扩展一些。

区域调整可以分为四个参数：

对左上角 x 坐标的调整
对左上角 y 坐标的调整
对长度的调整
对宽度的调整

因为坐标和长宽的值大小不一定，例如同样是脸的左半部分，出现在图片的左上角和图片的右下角就会让 x y 坐标不一样，如果远近不同那么长宽也会不一样，我们需要把调整量作标准化，标准化的公式如下：

x1, y1, w1, h1 = 候选区域
x2, y2, w2, h2 = 真实区域
x 偏移 = (x2 - x1) / w1
y 偏移 = (y2 - y1) / h1
w 偏移 = log(w2 / w1)
h 偏移 = log(h2 / h1)

经过标准化后，偏移的值就会作为比例而不是绝对值，不会受具体坐标和长宽的影响。此外，公式中使用 log 是为了减少偏移的增幅，使得偏移比较大的时候模型仍然可以达到比较好的学习效果。

多任务损失

Fast R-CNN损失函数由分类损失（CrossEntropy Loss）和回归损失（SmoothL1 Loss）两部分构成。其中分类模型需要区分候选区域类别，以判定物体还是背景，因此需要对所有输出进行计算损失。回归模型只需要对物体边界框进行矫正，因此只计算非背景区域的损失。

Fast-RCNN 模型会针对各个区域输出两个结果，第一个是区域对应的标签 (人脸，非人脸)，第二个是上面提到的区域偏移，调整参数的时候也需要同时根据这两个结果调整。实现同时调整多个结果可以把损失相加起来再计算各个参数的导函数值：

各个区域的特征 = ROI层(CNN模型(图片数据))

计算标签的线性模型(各个区域的特征) - 真实标签 = 标签损失

计算偏移的线性模型(各个区域的特征) - 真实偏移 = 偏移损失

损失 = 标签损失 + 偏移损失

有一个需要注意的地方是，在这个例子里计算标签损失需要分别根据正负样本计算，否则模型在经过调整以后只会输出负结果。这是因为线性模型计算抽取出来的特征时有可能输出正 (人脸)，也有可能输出负 (非人脸)，而 ROI 层抽取的特征很多是重合的，也就是来源相同，当负样本比正样本要多的时候，结果的方向就会更偏向于负，这样每次调整参数的时候都会向输出负的方向调整。如果把损失分开计算，那么不重合的特征可以分别向输出正负的方向调整，从而达到学习的效果。

此外，偏移损失只应该根据正样本计算，负样本没有必要学习偏移。

最终的损失计算处理如下：

各个区域的特征 = ROI层(CNN模型(图片数据))

计算标签的线性模型(各个区域的特征)[正样本] - 真实标签[正样本] = 正样本标签损失

计算标签的线性模型(各个区域的特征)[负样本] - 真实标签[负样本] = 负样本标签损失

计算偏移的线性模型(各个区域的特征)[正样本] - 真实偏移[正样本] = 正样本偏移损失

损失 = 正样本标签损失 + 负样本标签损失 + 正样本偏移损失

合并结果区域

因为选取区域的算法本来就会返回很多重合的区域，可能会有有好几个区域同时和真实区域重叠率大于一定值 (70%)，导致这几个区域都会被认为是包含对象的区域：

模型经过学习后，针对图片预测得出结果时也有可能返回这样的重合区域，合并这样的区域有几种方法：

使用最左，最右，最上，或者最下的区域
使用第一个区域 (区域选取算法会按出现对象的可能性排序)
结合所有重合的区域 (如果区域调整效果不行，则可能出现结果区域比真实区域大很多的问题)

结构小结

卷积网络提取特征：输入是224*224，经过5个卷积层和2个降采样层（这两个降采样层分别跟在第一和第二个卷积层后面）

ROI池化层：进入RoI Pooling层，该层的输入是conv5层的输出和P个候选区域region proposal。

全连接层：然后再经过两个都是output是4096的全连接层，将特征图转化为特征向量。

分类器和回归器：最后分别经过output个数是21和84的两个全连接层（这两个全连接层是并列的，不是前后关系），前者是分类的输出，代表每个region proposal属于每个类别（21类）的得分，后者是回归的输出，代表每个region proposal的四个坐标。

最后是两个损失层，分类的是softmaxWithLoss，输入是label和分类层输出的得分；回归的是SmoothL1Loss，输入是回归层的输出和target坐标及weight。

Fast R-CNN的创新点和优缺点

相较于RCNN算法，Fast RCNN算法极大的缩短了检测时间，但是整个过程仍需要使用ss方法生成候选区域，总体时间消耗仍然不适用于实时检测任务。

代码（todo）

参考资料

写给程序员的机器学习入门 (九) - 对象识别 RCNN 与 Fast-RCNN - q303248153 - 博客园