首页 > 程序开发 > 综合编程 > 其他综合 >

Faster rcnn相关文章研究

2016-12-10

Faster rcnn相关文章研究:一、效果简介:1 多类目标检测,基于VOC2012数据集。我们目前的人脸检测模型是:Faster R-CNN + VGG_CNN_M_1024,即VGG-16的简化版。

一、效果简介

1 多类目标检测,基于VOC2012数据集
我们目前的人脸检测模型是:Faster R-CNN + VGG_CNN_M_1024,即VGG-16的简化版。

MAC :The number of adds andmultiplications

mAP:Mean average precision

GPU:NVIDIA Titan X

注:PVANET+的MAC为十亿级别,即约37亿。

2 人脸检测,基于fddb数据集

Xiaomi方法得分最高,Faster rcnn方法紧随其后。

3 行人检测,基于KITTI数据集

KITTI数据集:包含汽车、行人和骑自行车人三类目标,分为容易、适中和难三个难易程度。包含7481张训练验证图片(已标注),7518张测试图像(未标注) 。

二、文章思路分析

1 多类目标检测

(1) R-FCN +Resnet-101

原文:R-FCN: Object Detection via Region-based Fully Convolutional Networks

Faster R-CNN +++:即R-FCN + Resnet-101;速度快了2.5倍。

主要思路: R-FCN主要通过移除最后的全连接层进行加速,使得结构中所有可学习参数都是卷积,且可共享,并且用到了最新的residual network。

如上图,RPN用于生成候选窗口,ROI池化层用于计算目标窗口得分,通过设定阈值,最终可以将ROIs(region of interest)分成目标或背景。

(2) PVANET

原文:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

PVANET,即pva-faster-rcnn;计算成本降低了十倍,速度降至46ms。

核心部分:C.ReLU(concatenatedrelu)结构,在conv和ReLU中间添加Negation,concatenation,scale/shift部分,达到‘lesschannels with more layers’的目的,从而减少网络参数、降低计算量。

PVANET结构如上图所示,包含C.ReLU,Residual,inception等部分。Inception适用于不同尺寸,大小的接收域,并在接收域获得多尺度目标。在Inception层中增加Residual,解决较深网络的训练问题。

RPN部分生成25个chchors,对应5种尺寸(3,6,9,16,25),5种宽高比(0.5,0.667,1.0,1.5,2.0),可见包含尺度更加丰富。

2 人脸检测

(1) xiaomi

原文:Bootstrapping Face Detection with Hard Negative Examples

在faster-rcnn上做改进,运用较难检测的负样本,残差网络,目前FDDB得分最高。

主要思路:

1、hard negative mining:负样本挖掘技术,用初始训练的caffe模型,检测训练负样本(faster rcnn中负样本随机产生),得到难检测的负样本。将难负样本加入到训练集负样本中,重新训练,如此重复训练,直到caffe模型效果不再提高。

注意:训练时保持正负样本1:3,将难负样本加入重新训练时,保持正负样本1:3,但保证加入的难负样本在里面。

2、难负样本选择:当检测区域和任何一个人脸标注位置的maximunIOU(intersection over union,交并比)小于0.5时,认为是难负样本。

3 行人检测

(1) RPN+BF

原文:Is Faster R-CNN Doing Well for Pedestrian Detection?

主要思路:

1、解决输入到分类器中的特征图(小目标)分辨率不高问题:采用‘a trous’策略,将特征图放大,从而增加分辨率。

2、解决难负样本较难检测的问题:采用cascaded Boosted Forest(BF),训练分为6个阶段,每个阶段有不同个trees,开始训练正负样本相同,之后每个阶段不断添加难负样本(数量为正样本的10%)到训练集中。

整体结构如上图,RPN(宽高比统一为0.4,9种尺度,在高40基础上不断扩大1.3倍)用于生成候选窗口,ROI池化层可以同时提取多个卷积层特征(conv3_3,conv4_3,conv5_3),并将这些特征级联;BoostedForest实现分类功能。

(1) MSCNN

原文: AUnified Multi-scale Deep Convolutional Neural Network for Fast ObjectDetection

主要解决问题:如上图,自然场景(黄色框)目标存在多种尺度大小,所以单一的RPNanchors(阴影部分)无法完满匹配目标。

主要思路:

1、网络结构中,在较浅层检测小目标,在较深层检测大目标,最后检测器联合,形成多尺度检测器。

2、用反卷积层实现特征图上采样代替输入图片上采样,提高了特征图分辨率,可以较好地检测小目标,同时减少了计算。

整体结构包括:proposal子网络+ detection子网络。

proposal子网络如上图所示。

proposal子网络如上图所示。

三、研究结论及意义

结论:

1、proposal与目标尺寸不匹配问题:(1)更改RPN尺寸,宽高比,以适应自然场景;(2)在神经网络中采取分层(深层,浅层)检测策略,最后级联检测器,形成多尺度检测器。

2、检测小目标难的问题:将特征图放大,提高分辨率,如a trous’、反卷积策略。

3、加速:(1)移除最后的全连接层,实现更多计算资源共享;(2)减少特征图channels数量,以减少参数个数,从而减少计算量。

4、提高准确率:(1) hard negative mining;(2)使用更深的网络,如residualnetwork。

意义:

针对**环境下人脸检测改进策略的思考:

1、将RPN宽高比统一为1:1,9种尺度,在高40基础上不断扩大1.3倍;

2、采取hard negative mining策略+ residual network ;

3、用PVANET网络重新训练。

相关文章
最新文章
热点推荐