先说结论:在CNN中,没有放缩和旋转的功能。
因为有pooling层的原因,所以有一点translation的功能。在下图中,通常情况下左右两个对于CNN来说是不一样的。
那么,Spatial Transformer Layer的功能是,想要学习一个层,能够对左图中的图片进行旋转和缩放。
学习过程中,平移本质上来说就是调整权重的过程。
上图中,权重相同的颜色代表相同的权值。其目标是进行向下平移,具体公式如下:
举个栗子:
那么,怎么实现这种变换呢?
首先把图片中的每一个像素坐标化,矩阵
[ 2 2 2 2 ] \begin{bmatrix} 2 &2 \\ 2 &2 \end{bmatrix} [2222]
的作用是将其放大,
[ 0 0 ] \begin{bmatrix} 0 \\ 0 \end{bmatrix} [00]的作用是控制其是否进行平移操作。
综上,Spatial Transformer Layer需要六个参数
但是,实际上在计算的过程中,如果 a , b , c , d , e , f a,b,c,d,e,f a,b,c,d,e,f的值如果是小数呢?在这样的情况下是没有办法进行可微分的操作的。因此,需要采用一种方法Interpolation操作。