计算机视觉之目标检测综述

数据集	类别数	train图片数，box数	val图片数，box数	boxes/Image
Pascal VOC-2012	20	5717, 1.3万+	5823， 1.3万+	2.4
COCO	80	118287， 4万+	5000，3.6万+	7.3
Object365	365	600k, 9623k	38k, 479k	16
OpenImages18	500	1643042, 86万+	100000，69.6万+	7.0

参考文献

[1] - Rich feature hierarchies for accurate object detection and semantic segmentation

[2] - Fast R-CNN

[3] - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[4] - Mask R-CNN

[5] - SSD: Single Shot MultiBox Detector

[6] - You Only Look Once: Unified, Real-Time Object Detection

[7] - YOLO9000: Better, Faster, Stronger

[8] - YOLOv3: An Incremental Improvement

[9] - R-FCN: Object Detection via Region-based Fully Convolutional Networks

[10] - Object Detection in 20 Years: A Survey

[11] - CornerNet: Detecting Objects as Paired Keypoints

[12] - Objects as Points

最后修改：2021 年 09 月 18 日 02 : 01 PM

深度学习应用之推荐系统
NLP序列模型之词表示
深度学习之GAN 应用场景示例
深度学习之GAN 编码器和解码器
深度学习之GAN 基本概念

MongoDB - 用户权限管理
腾讯云科普AI向量数据库
PCA - Python 实现

发表评论取消回复

计算机视觉之目标检测综述

AIHGF • 2021 年 09 月 07 日

出处： Paddle文档平台 - 目标检测

目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别，并在该目标周围绘制边界框，标示出每个目标的位置，如图1 所示。

图1 图像分类和目标检测示意图

图1(a)是图像分类任务，只需对这张图片进行类别识别。
图1(b)是目标检测任务，不仅要识别出这一张图片中的类别为斑马，还要标出图中斑马的位置。

1. 应用场景

如图2 所示，如今的目标检测不论在日常生活中还是工业生产中都有着非常多的应用场景。

消费娱乐：智能手机的人脸解锁以及支付APP中的人脸支付；自动售货机使用的商品检测；视频网站中图片、视频审核等；
智慧交通：自动驾驶中的行人检测、车辆检测、红绿灯检测等；
工业生产：工业生产中的零件计数、缺陷检测；设备巡检场景下的设备状态监控；厂区中的烟火检测、安全帽检测等；
智慧医疗：眼底、肺部等器官病变检测；新冠疫情中的口罩检测等。

图2 目标检测应用场景

2. 目标检测发展历程

图3 图像分类流程示意图

那么，现在问题的关键就是如何产生候选区域？比如我们可以使用穷举法来产生候选区域，如图4 所示。

图4 候选区域

A为图像上的某个像素点，B为A右下方另外一个像素点，A、B两点可以确定一个矩形框，记作AB。

如图4(a)所示：A在图片左上角位置，B遍历除A之外的所有位置，生成矩形框$A_1B_1, …, A_1B_n, …$
如图4(b)所示：A在图片中间某个位置，B遍历A右下方所有位置，生成矩形框$A_kB_1, …, A_kB_n, …$

当A遍历图像上所有像素点，B则遍历它右下方所有的像素点，最终生成的矩形框集合${A_iB_j}$将会包含图像上所有可以选择的区域。

科学家们开始思考，是否可以应用传统图像算法先产生候选区域，然后再用卷积神经网络对这些区域进行分类？

2013年，Ross Girshick等人于首次将CNN的方法应用在目标检测任务上，他们使用传统图像算法Selective Search产生候选区域，取得了极大的成功，这就是对目标检测领域影响深远的区域卷积神经网络(R-CNN^[1])模型。
2015年，Ross Girshick对此方法进行了改进，提出了Fast R-CNN^[2]模型。通过将不同区域的物体共用卷积层的计算，大大缩减了计算量，提高了处理速度，而且还引入了调整目标物体位置的回归方法，进一步提高了位置预测的准确性。
2015年，Shaoqing Ren等人提出了Faster R-CNN^[3]模型，提出了RPN的方法来产生物体的候选区域，这一方法不再需要使用传统的图像处理算法来产生候选区域，进一步提升了处理速度。
2017年，Kaiming He等人提出了Mask R-CNN^[4]模型，只需要在Faster R-CNN模型上添加比较少的计算量，就可以同时实现目标检测和物体实例分割两个任务。

图5 目标检测算法发展流程

由于这类算法都是使用Anchor提取候选目标框。在特征图的每一个点上，对Anchor进行分类和回归。所以这些算法也统称为基于Anchor的算法。

但是这种基于Anchor的方法，在实际应用中存在一些问题:

Anchor是人为手工设计的，那我们换个数据集，应该设置多少？设置多大？长宽比如何设置？
Anchor这种密集框，数量多，训练时如何选择正负样本？
Anchor设置也导致超参数较多，实际业务扩展中，相对来说，就有点麻烦。

图6 基于深度学习的目标检测算法发展流程

Anchor-base和Anchor-free的算法也各具优势，下表为大家简单对比了几类算法各自的优缺点。

	Anchor-Based单阶段	Anchor-Based两阶段	Anchor-Free
网络结构	简单	复杂	简单
精度	优	更优	较优
预测速度	快	稍慢	快
超参数	较多	多	相对少
扩展性	一般	一般	较好

3. 常用数据集

数据集	类别数	train图片数，box数	val图片数，box数	boxes/Image
Pascal VOC-2012	20	5717, 1.3万+	5823， 1.3万+	2.4
COCO	80	118287， 4万+	5000，3.6万+	7.3
Object365	365	600k, 9623k	38k, 479k	16
OpenImages18	500	1643042, 86万+	100000，69.6万+	7.0

Pascal VOC-2012：VOC数据集是 PASCAL VOC挑战赛使用的数据集，包含了20种常见类别的图片，是目标检测领域的经典学术数据集之一。
COCO：COCO数据集是一个经典的大规模目标检测、分割、姿态估计数据集，图片数据主要从复杂的日常场景中截取，共80类。目前的学术论文经常会使用COCO数据集进行精度评测。
Object365：旷世科技发布的大规模通用物体检测数据集，共365类。
OpenImages18：谷歌发布的超大规模数据集，共500类。

参考文献

[1] - Rich feature hierarchies for accurate object detection and semantic segmentation

[2] - Fast R-CNN

[3] - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[4] - Mask R-CNN

[5] - SSD: Single Shot MultiBox Detector

[6] - You Only Look Once: Unified, Real-Time Object Detection

[7] - YOLO9000: Better, Faster, Stronger

[8] - YOLOv3: An Incremental Improvement

[9] - R-FCN: Object Detection via Region-based Fully Convolutional Networks

[10] - Object Detection in 20 Years: A Survey

[11] - CornerNet: Detecting Objects as Paired Keypoints

[12] - Objects as Points

[13] - Pascal VOC

[14] - COCO

[15] - Object365

[16] - OpenImages

计算机视觉之目标检测综述

1. 应用场景

2. 目标检测发展历程

3. 常用数据集

参考文献

※相关文章推荐※

※最新文章推荐※

发表评论取消回复

计算机视觉之目标检测综述

1. 应用场景

2. 目标检测发展历程

3. 常用数据集

参考文献

1. 应用场景

2. 目标检测发展历程

3. 常用数据集

参考文献

※相关文章推荐※

※最新文章推荐※

发表评论 取消回复

计算机视觉之目标检测综述

1. 应用场景

2. 目标检测发展历程

3. 常用数据集

参考文献

发表评论取消回复