• 物体检测相关——学习笔记


    1.概述

    对图片/视频,用框(bounding box)标出物体的位置,并给出物体的类别。

    2. 物体检测数据集 

    PASCAL VOC, 20类, 比较简单, 图片中物体所占比较大比较少; http://host.robots.ox.ac.uk/pascal/VOC/

    COCO, 微软做的,80类物体, 单张物体稠密, 验证检测器性能常用数据集。http://cocodataset.org/#home

    3. 评价检测器的性能

    绿色为人手工标注的ground truth,红色是检测器标注的。

    怎么评价检测器的性能:

    3.1 Intersection over Union(IoU)交并比

    是预测框与label的交集比上两者并集的比值;若为1则为最优分类器,一般来说IOU>0.5就代表预测正确。

    3.2 precision-recall curve(PR曲线)精度-召回曲线

    改变置信度的阀值计算精度和召回,做出曲线,代表评测器综合性能。

    对于一张图片的检测结果,每一个结果都有一个对应的得分,得分代表一种检测的结果置信度,根据检测结果可以计算得到TP,FP,FN,TN等,通过不断改变阈值就可以绘制出PR曲线。

    特点:整体趋势,随着召回率的增加精度下降,但局部会发生增加现象。

    原因:整体下降:随着置信度阀值的降低召回率基本不变,而精度会逐渐降低;局部增加:正例中含有假正例子还造成局部增加。

     

    将检测结果按照得分降序排序;打标签,一对一规则。

     不断改变阈值。

     

    4、物体检测算法

    不管是传统方法还是深度学习方法都可以看作:搜索加分类

    传统方法中是滑动窗,提取窗口内的部分进行物体检测。

    框的大小固定,将图像resize为各种大小的图片集合(图像金字塔),使得框内的部分大小变化,从而实现用固定大小的框检测不同大小的物体。

    传统的方法:人工手动特征+浅层分类器

    基于深度学习网络:带有标签的数据+深度神经网络

    传统方法:

    论文1:Robust Real-Time Face Detection

    使用了滑动窗+图像金字塔

    Haar特征,用白框的像素值减去灰框中的像素值,得到的结果是该区域的Haar特征值

    级联分类器

    论文2:Deformable Part Models(DPM)

    特征HOG+分类器SVM,图像金字塔

     

    深度学习方法:

    论文1 R-CNN

    http://islab.ulsan.ac.kr/files/announcement/513/rcnn_pami.pdf

    传统方法与神经网络结合,使用传统方法生成候选区域,候选区域resize到固定尺寸后,送入CNN分类。

    主要贡献:用CNN取代了原来的特征提取和分类器。

    论文2 Fast RCNN

    https://arxiv.org/pdf/1504.08083.pdf

    RCNN的问题是会重复计算。对每个候选区域,可能会有重叠,在重复计算。

    FastRCNN将图片送入CNN,得到特征图,feature map。

    使用了ROI pooling,转为固定尺寸的大小,后接全连接。

    主要贡献:避免了相同区域的特征重复提取。但是目前的候选区域生成都是传统方法,成为瓶颈。

    具体改进是将原始图片直接送进CNN网络,之后在输出的feature map上进行候选区域的选择;同时引入了一层ROI pooling,用来将候选区域转换为固定大小的feature map。转化出来的feature map转换为全连接层,之后继续进行特征分类以及BB回归。这种方法共享了特征图计算,节省了大量计算量。

    论文3 Faster RCNN

    https://arxiv.org/pdf/1506.01497.pdf

    引入了RPN结构(浅层CNN),来生成一系列候选区域。提高速度。

    论文4 R-FCN

    https://arxiv.org/pdf/1605.06409.pdf

    加入位置敏感score maps,直接得到类别的概率。

    图中,C代表类别。例如coco数据集,80类+1背景类。

    论文5 YOLO

    https://arxiv.org/pdf/1506.02640.pdf

    对一张图片直接计算回归,得到bb的位置和类别。

    7*7是大小,30=VOC20类+10(2框*(4+1))

    论文6 SSD,强化版RPN

    https://arxiv.org/pdf/1512.02325.pdf

    类似YOLO,一步到位。

    可以看做强化版的RPN

    用不同阶段的特征图进行预测,所以可以检测不同尺度的物体。

    论文7 FPN

    https://arxiv.org/pdf/1612.03144.pdf

    多尺度检测

    将深层的特征图与浅层的特征图相加(有交融),提升表达能力。

    论文8 Mask RCNN

    https://arxiv.org/pdf/1703.06870.pdf

     

    论文9 Focal Loss

    https://arxiv.org/pdf/1708.02002.pdf

    one stage准确率低于two stage的原因:

    样本不均衡,负样本太多

     

    目标检测原理与应用(上) - 计算机视觉基础入门课程(从算法到实战应用) - AI研习社 - 研习AI产学研新知,助力AI学术开发者成长。 http://www.mooc.ai/course/353/learn?lessonid=2343&groupId=46#lesson/2343

  • 相关阅读:
    WEB上传大文件
    Java+超大文件上传
    php+文件夹上传
    php上传视频大文件
    每一个程序猿需掌握的20个代码命名小贴士
    Mysql整数运算NULL值处理注意点
    拓展欧几里得模板
    bzoj 1088 简单dfs
    决策树
    进程-IPC 管道 (一)
  • 原文地址:https://www.cnblogs.com/wxl845235800/p/11384946.html
Copyright © 2020-2023  润新知