计算机视觉之目标检测综述

出处:Paddle文档平台 - 目标检测

对计算机而言,能够“看到”的是图像被编码之后的数字,它很难理解高层语义概念,比如图像或者视频帧中出现的目标是人还是物体,更无法定位目标出现在图像中哪个区域。

目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框,标示出每个目标的位置,如 图1 所示。

图1 图像分类和目标检测示意图

图1 图像分类和目标检测示意图

1. 应用场景

图2 所示,如今的目标检测不论在日常生活中还是工业生产中都有着非常多的应用场景。

图2 目标检测应用场景

图2 目标检测应用场景

2. 目标检测发展历程

在图像分类任务中,会先使用卷积神经网络提取图像特征,然后再用这些特征预测分类概率,根据训练样本标签建立起分类损失函数,开启端到端的训练,如 图3 所示。

图3 图像分类流程示意图

图3 图像分类流程示意图

但对于目标检测问题,按照 图3 的流程则行不通。因为在对整张图提取特征的过程中无法体现出不同目标之间的区别,最终也就没法分别标示出每个物体所在的位置。

为了解决这个问题,结合图片分类任务取得的成功经验,我们可以将目标检测任务进行拆分。假设我们使用某种方式在输入图片上生成一系列可能包含物体的区域,这些区域称为候选区域。对于每个候选区域,可以单独当成一幅图像来看待,使用图像分类模型对候选区域进行分类,看它属于哪个类别或者背景(即不包含任何物体的类别)。

那么,现在问题的关键就是如何产生候选区域?比如我们可以使用穷举法来产生候选区域,如 图4 所示。

图4 候选区域

图4 候选区域

A为图像上的某个像素点,B为A右下方另外一个像素点,A、B两点可以确定一个矩形框,记作AB。

当A遍历图像上所有像素点,B则遍历它右下方所有的像素点,最终生成的矩形框集合${A_iB_j}$将会包含图像上所有可以选择的区域。

只要我们对每个候选区域的分类足够的准确,则一定能找到跟实际物体足够接近的区域来。穷举法也许能得到正确的预测结果,但其计算量也是非常巨大的,其所生成的总候选区域数目约为$\frac{W^2 H^2}{4}$,假设$H=W=100$,总数将会达到$2.5 \times 10^{7}$个,如此多的候选区域使得这种方法几乎没有什么实用性。但是通过这种方式,我们可以看出,假设分类任务完成的足够完美,从理论上来讲检测任务也是可以解决的,亟待解决的问题是如何设计出合适的方法来产生候选区域。

科学家们开始思考,是否可以应用传统图像算法先产生候选区域,然后再用卷积神经网络对这些区域进行分类?

以上都是基于R-CNN系列的著名模型,对目标检测方向的发展有着较大的影响力。此外,还有一些其他模型,比如SSD[5]、YOLO[6,7,8]、R-FCN[9]等也都是目标检测领域流行的模型结构。图5 为目标检测综述文章[10]中的一幅图,梳理了近些年目标检测算法的发展流程。

图5 目标检测算法发展流程

图5 目标检测算法发展流程

其中,由于上文所述的R-CNN的系列算法将目标检测任务分成两个阶段,先在图像上产生候选区域,再对候选区域进行分类并预测目标物体位置,所以它们通常被叫做两阶段检测算法。而SSD和YOLO系列算法则是使用一个网络同时产生候选区域并预测出物体的类别和位置,所以它们通常被叫做单阶段检测算法

上文中提到,穷举法来获取候选区域是不现实的。因此在后来的经典算法中,常用的一个思路是使用Anchor提取候选目标框,Anchor是预先设定好比例的一组候选框集合,在图片上进行滑动就可以获取候选区域了。

由于这类算法都是使用Anchor提取候选目标框。在特征图的每一个点上,对Anchor进行分类和回归。所以这些算法也统称为基于Anchor的算法。

但是这种基于Anchor的方法,在实际应用中存在一些问题:

由于上述缺点的存在,近些年研究者们还提出了另外一类效果优异的算法,这些算法不再使用anchor回归预测框,因此也称作Anchor-free的算法,例如:CornerNet[11]和CenterNet[12]等。图6 为大家简单罗列了经典的Anchor-base和Anchor-free的算法。

图6 基于深度学习的目标检测算法发展流程

图6 基于深度学习的目标检测算法发展流程

Anchor-base和Anchor-free的算法也各具优势,下表为大家简单对比了几类算法各自的优缺点。

Anchor-Based单阶段Anchor-Based两阶段Anchor-Free
网络结构简单复杂简单
精度更优较优
预测速度稍慢
超参数较多相对少
扩展性一般一般较好

3. 常用数据集

在目标检测领域,常用的开源数据集主要包含以下4个:Pascal VOC[13]、COCO[14]、Object365[15]、OpenImages[16]。这些数据集的类别数、图片数、目标框的总数量各不相同,因此难易也各不相同。这里整理了4个数据集的具体情况,如下表所示。

数据集类别数train图片数,box数val图片数,box数boxes/Image
Pascal VOC-2012205717, 1.3万+5823, 1.3万+2.4
COCO80118287, 4万+5000,3.6万+7.3
Object365365600k, 9623k38k, 479k16
OpenImages185001643042, 86万+100000,69.6万+7.0

参考文献

[1] - Rich feature hierarchies for accurate object detection and semantic segmentation

[2] - Fast R-CNN

[3] - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[4] - Mask R-CNN

[5] - SSD: Single Shot MultiBox Detector

[6] - You Only Look Once: Unified, Real-Time Object Detection

[7] - YOLO9000: Better, Faster, Stronger

[8] - YOLOv3: An Incremental Improvement

[9] - R-FCN: Object Detection via Region-based Fully Convolutional Networks

[10] - Object Detection in 20 Years: A Survey

[11] - CornerNet: Detecting Objects as Paired Keypoints

[12] - Objects as Points

[13] - Pascal VOC

[14] - COCO

[15] - Object365

[16] - OpenImages

最后修改:2021 年 09 月 18 日 02 : 01 PM

※相关文章推荐※

※最新文章推荐※

发表评论 取消回复

🎲

PHP网站源码丹竹头网站建设设计大浪SEO按天扣费沙井百度关键词包年推广双龙百度竞价平湖外贸网站设计福永优秀网站设计坪地网站优化按天扣费深圳网站优化按天计费坪山推广网站同乐网站优化排名荷坳网站推广工具石岩建站坂田SEO按天计费龙岗SEO按天收费双龙网站推广龙岗SEO按天计费大浪品牌网站设计木棉湾网页制作南联企业网站建设吉祥企业网站设计大鹏seo排名南联关键词排名包年推广罗湖网站搜索优化南联百度竞价包年推广塘坑设计网站永湖网站设计模板坑梓百姓网标王推广民治如何制作网站深圳SEO按天计费布吉网络营销歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化