FPN ——特征金字塔

FPN ——特征金字塔

论文链接:Feature Pyramid Networks for Object Detection (thecvf.com)

模型简介

image-20231107155943324
  • 以特征金字塔为基础结构,对每一层级的特征图分别进行预测。
  • 这种网络结构,能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

模型结构

image-20231107160159580

1:Bottom-up pathway

前馈Backbone(主干网络)的一部分,每一级向上使用step=2的降采样(降采样:每个类别被选择的概率是原始样本数量的倒数)。

输出size相同的网络部分称为一个stage,选择每一个stage的最后一层输出作为特征图的参考集。

以fasterRCNN的网络结构为例,左列ResNet用每级最后一个Residual Block的输出,记为{C1,C2,C3,C4,C5}。

FPN用2~5级参与预测(因为第一级的语义还是太低了),{C2,C3,C4,C5}表示conv2,conv3,conv4和conv5的输出层(最后一个残差block层)作为FPN的特征,分别对应于输入图片的下采样倍数为{4,8,16,32}。

image-20231107183949269

2:Top-down pathway and lateral connections

自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图。放大到上一个stage的特征图一样的大小。

上采样的方法是最近邻插值法:

image-20231107184543643

通过自底向上路径,FPN得到了四组Feature Map。浅层的Feature Map,例如C2含有更多的底层信息(纹理,颜色等),而深层的Feature Map如C5含有更多的语义信息。为了将这四组倾向不同特征的Feature Map组合起来,FPN使用了自顶向下及横向连接的策略,最终得到P2,P3,P4,P5四个输出。

以P3为例,P3是由P4和C3共同得到,其中P4的通道数已经是 256 了,但是它的大小只是P3的 1/2 ,因为我们使用上采样将它的尺寸增加到C3的大小,FPN中使用的上采样策略是最近邻居采样。继续,因为C3的通道数是128,而我们需要的P3的通道数是256,所以这里使用 1×1 卷积将C3的通道数扩充到 256 。最后P3是P4的上采样的Feature Map和C3的调整通道数的Feature Map的单位加。

image-20231107184628008

FPN ——特征金字塔
http://example.com/2023/11/07/FPN/
作者
Z Z
发布于
2023年11月7日
许可协议