yolov2论文初读笔记

概括:

yolov2论文主要根据yolov1体现的一些缺点和局限性作出了一些改进:论文称达到了better、fatser、stronger
yolov2论文初读笔记_第1张图片

已上图根据身高体重分成两类的例子为例介绍
步骤流程:
1、确定好分成k=2类;
2、确定初始化群中心点,如图中的蓝色和红色点;标准做法是计算每个点到两个群心的欧式距离,最小的举例则属于对应群心那类,已此方法重新聚类;
3、重新确定群中心点,重复2操作;
回到yolov2先验框的聚类确定,因为先验框对于我们来说真正关系的是他的置信度,或者是IOU,IOU越大说明这个先验框预测效果越好,IOU其实与先验框的尺寸没有关系,所以并不采用标准的欧式距离去聚类,而是根据公式:
$d(box,centroid)=1-IOU(box,centroid)$
上面说到yolov2先验框个数也就是k类选的是5,这里是作者将k值设定类很多种值实验得来的结果,因为在k>5以后虽然IOU更高,但是模型必然会随着k的增大而更复杂,计算量也更大,而k=5时已经有比较好的IOU,再此之后IOU升高速度也很慢,所以5是模型复杂度和高IOU的折衷取值。
yolov2论文初读笔记_第2张图片
这样的细粒度处理提升来1%mAP。
多尺度训练:
yolov2在训练时采用输入图片随机变化不同尺度进行训练的方式,因为yolov2的网络结构更改了,没有全连接层,所以输入尺寸其实并不是向yolov1那样受限了,那yolov2是怎样改变训练图片输入尺寸的呢,yolov2有一个倍数因子是32,输入图片只要满足32的整数倍都可以,所以输入图片的尺寸就可以是:{320,352,...,608},训练集中提供这些尺寸的输入图片,并在训练时每10个batch就随机更换一种尺寸,这样能使yolov2的网络模型适应各种大小输入图片的检测,这里的原理和前面的高分辨率分类器处理是一样的。

Faster(创新了darknet-19网络结构)

上述的优化主要是提高检测精度和召回率,此段主要介绍yolov2如何实现更快的,主要是完全改变了网络结构,废去了yolov1的网络结构,自创了名为darknet-19的网络结构:
yolov2论文初读笔记_第3张图片

你可能感兴趣的