目标检测中常用关键词的含义

  1. ROI Pooling 和 ROI Align 的区别 本文转自B呼。

ROI Pooling

  • 对齐到网格单元(snap to grid cell)
    首先将一个浮点数RoI量化为特征映射的离散粒度。表现为RoI对应的特征图的与原始特征图的网格单元对齐。这里为第一次量化操作
    目标检测中常用关键词的含义_第1张图片
  • 划分网格为子区域(bin)
    粗略地将网格分为 H × W H\times W H×W(Fast RCNN 中设为 7 × 7 7\times 7 7×7)个子网格区域。将上一步得到的量化RoI 特征进一步细分为量化的空间单元(bin)。这里进行了第二次量化操作
    目标检测中常用关键词的含义_第2张图片
  • 最大池化操作
    在每一个子区域执行聚合操作得到单元的特征值(一般是最大池化)。对上一步得到的 2 × 2 2\times 2 2×2个子区域分别做最大池化操作,得到 2 × 2 × 512 2\times2\times512 2×2×512的目标特征图。
    目标检测中常用关键词的含义_第3张图片
    **通过RoI Pooling, 对于具有不同特征大小的的输入区域, 都可以得到相同大小输出特征。**但是每一次量化操作都会对应着轻微的区域特征错位(misaligned), 这些量化操作在RoI和提取到的特征之间引入了偏差。这些量化可能不会影响对分类任务,但它对预测像素精度掩模有很大的负面影响。

ROI Align

RoI Align 在 Mask RCNN 中被首次提出。针对RoI Pooling在语义分割等精细度任务中精确度的问题提出的改进方案。
**Step:**下面以输出目标特征图尺寸大小为 2 × 2 × 512 2\times2\times512 2×2×512进行说明

  • 遍历候选每个候选区域,保持浮点数边界不做量化(不对齐网格单元);同时平均分网格分为 H × W H\times W H×W(这里为 2 × 2 2\times2 2×2 )个子网格区域,每个单元的边界也不做量化。
    目标检测中常用关键词的含义_第4张图片
  • 对于每个区域选择4个规则采样点(分别对应将区域进一步平均分为四个区域,取每个子区域的中点)。
    目标检测中常用关键词的含义_第5张图片
  • 利用双线性插值计算得到四个采用点的像素值大小。下图为一个规则采样点所对应的邻近区域示意图。
    目标检测中常用关键词的含义_第6张图片
  • 利用最大池化(max pooling)或平均池化(average pooling)分别对每个子区域执行聚合操作,得到最终的特征图。
    目标检测中常用关键词的含义_第7张图片
    通过RoI Align, 对于具有不同特征大小的的输入区域, 都可以得到相同大小输出特征。

双线性插值

详情请看B呼原文。
2. pass

你可能感兴趣的