几种基于深度学习的目标检测(SPPNet,Fast,Faster R-CNN,YOLO).pptx

下载文档 降价啦

51
0
约2.41千字
约 12页
2017-06-08 发布于湖北
举报
版权申诉
保障服务

几种基于深度学习的目标检测(SPPNet,Fast,Faster R-CNN,YOLO).pptx

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

几种基于深度学习的目标检测(SPPNet,Fast,Faster R-CNN,YOLO)

SPP Net 1.结合空间金字塔方法实现CNNs的多尺度输入一般CNNs后接full-connect layer或者classifier，它们都需要固定的输入尺寸。因此不得不对输入数据进行crop或warp，这些预处理会造成数据的丢失或几何学上的失真。 SPP Net 的第一个贡献是将空间金字塔的思想加入到CNNs中，实现了数据的多尺度输入。 Spatial Pyramid Pooling Layer（SPP）如图，在卷基层和全连接层之间加入SPP layer。此时网络的输入可以是任意尺寸，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出尺寸始终是固定的。 2.只对原图提取一次卷积特征在R-CNN中，每个proposed region先rescale成统一大小，然后分别作为CNNs的输入，这样是很低效的。在SPP Net中，只对原图进行一次卷积得到整张图的feature map，然后找到每个proposed region在feature map上的映射patch，将此patch作为每个proposed region的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间，比R-CNN有一百倍左右的加速。 Fast R-CNN整体结构如图，Fast R-CNN的网络有两个输出层，一个softmax，一个bbox regressor（相对的R-CNN,SPP Net中分类和回归是两个部分，这里集成在了同一个网络中）。而且加入了一个RoI pooling layer（类似于一个尺度的SPP layer）。注意：Fast R-CNN提取建议区域的方法依然是select search。 RoI pooling layer 这是SPP pooling的一个简化版本，可以看做是只有一个尺度 filter的‘金字塔’。输入是N个整幅图的feature map和一组R个RoI（proposed region）。每个特征映射都是H*W*C，每个RoI是一个元组（n，r，c，h，w），n是特征映射的索引，r，c，h，w分别是RoI的左上角坐标和高与宽。输出是max-pooling过得特征映射H’xW’xC，如上图中红色框线。 RoI-centric sampling与Image-centric sampling RoI-centric sampling：从所有图片的所有RoI中随机均匀取样，这样每个SGD的mini-batch中包含了不同图像中的样本（SPP Net采用）。SPP Net的反向传播没有到SPP pooling之前的层，因为反向传播需要计算每一个RoI感受野的卷基层，通常会覆盖整幅图像，又慢又耗内存。FR-CNN想要解决这个限制。 Image-centric sampling：mini-batch采用分层采样，先对图像采样，再对RoI采样。将采样的RoI限定在个别图像内，这样同一图像的RoI共享计算和内存。通过这种策略，实现了端到端的反向传播，可以fine-tuning整个网络。 Multi-task loss FR-CNN的有两个网络输出层，将原来与网络分开的bbox regression的操作整合在了网络中。并设计了一个同时优化两个输出层的loss函数。 Faster R-CNN Faster R-CNN的主要贡献是设计了提取建议区域的网络Region Proposal Network（RPN）。代替了费时4的select search，使检测速度大为提高。下图为Faster R-CNN的结构图，黄色部分为RPN，可以看出除了RPN，其它部分继承了FR-CNN的结构。 RPN整体结构 RPN的网络结构类似于FR-CNN，连接与最后卷基层输出的feature map，有一个RoI层，两个输出层，一个输出滑窗为建议区域的概率，另一个输出bbox回归的offset。其训练方式也类似于FR-CNN。注意：RPN与FR-CNN共用卷积层。 RPN RPN通过一个滑动窗口（图中红色框）连接在最后一个卷积层输出的feature map上，然后通过全连接层调整到256-d的向量，作为输出层的输入。同时每个滑动窗对应k个anchor boxes，在论文中使用3个尺寸和3个比例的3*3=9个anchor。每个anchor对应原图上一个感受野，通过这种方法提高scale-invariant。 RPN与FR-CNN共享卷基层为了使共用的卷积层在训练RPN和FR-CNN时都会收敛，论文里设计了一个四步训练的策略：（1）：对RPN进行end-to-end的训练，这里网络使用ImageNet pre-trained model进行初始化。（2）：使用第一步RPN生成的建议区域训练FR-CNN