• yolo笔记


    目标检测之anchor https://zhuanlan.zhihu.com/p/55824651

    【深度学习】感受野 https://blog.csdn.net/baidu_27643275/article/details/88711329

    感受野详解 https://blog.csdn.net/qq_41076797/article/details/114434415

    CNN基础知识——卷积(Convolution)、填充(Padding)、步长(Stride) 

    https://zhuanlan.zhihu.com/p/77471866

    1. yolo v1

    (1)优点:

    YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像;YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法。

    YOLO 实时检测的平均精度是其他实时监测系统的两倍。

    迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)。

    (2)局限:

    YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。

    由于损失函数没有完成对大小物体进行区别对待,损失函数没有完成对大小物体进行区别对待 ,因为对IOU影响较大 ,定位误差是影响检测效果的主要原因.

    YOLO对数据依赖强 , 对不常见的角度的目标泛化性能偏弱,下采样过多,导致特征过于粗糙。

    2. yolo v2

    YOLOv2在YOLO的基础上进行了大量的改进:

    ü 加入Batch Normalization

    ü 为主干网络训练进行高分辨率的fine tune

    ü 加入anchor box机制

    ü 使用k-mean来辅助anchor的设定

    ü 沿用YOLO的方法对anchor中心点进行修正

    ü 使用passthrough layer,融合低维度特征

    ü 使用multi-scale trainning提高准确率

    ü 提出darknet-19来加速

    ü 使用hierarchical classification进行超多目标的分类

    3. yolo v3

    YOLOv3在YOLOv2的基础上主要是融合一些用于提高准确率的方法:

    ü 将类别置信度预测改为逻辑独立分类 softmax loss 变成logistic loss

    ü 结合FPN的结构进行多level的预测

    ü 提出Darknet-53,将shortcut连接加入到网络中

    ² loss不同:作者v3替换了v2softmax loss 变成logistic loss,而且每个ground truth只匹配一个先验框。

    ² anchor bbox prior不同:v2作者用了5anchor,一个折衷的选择,所以v3用了9anchor,提高了IOU

    ² detection的策略不同:v2只有一个detectionv3一下变成了3个,分别是一个下采样的,feature map13*13,还有2个上采样的eltwise sumfeature map26*2652*52,也就是说v3416版本已经用到了52feature map,而v2把多尺度考虑到训练的data采样上,最后也只是用到了13feature map,这应该是对小目标影响最大的地方。

    ² backbone不同:这和上一点是有关系的,v2darknet-19变成了v3darknet-53,为啥呢?就是需要上采样啊,卷积层的数量自然就多了,另外作者还是用了一连串的3*31*1卷积,3*3的卷积增加channel,而1*1的卷积在于压缩3*3卷积后的特征表示,这波操作很具有实用性,一增一减,效果棒棒。

    1. yolo v4

    输入端采用mosaic数据增强,

    Backbone上采用了CSPDarknet53Mish激活函数、Dropblock等方式,

    Neck中采用了SPPFPN+PAN的结构,

    输出端则采用CIOU_LossDIOU_nms操作。

    1BoFbag of freebies

    在文中是指那些能够提高精度而不增加推断时间的技术。

    比如数据增广的方法:图像几何变换、Cutoutgrid mask等,

    网络正则化的方法:DropoutDropblock等,

    类别不平衡的处理方法,

    难例挖掘方法,

    损失函数的设计等,

    2) BoSbag of specials

    是指那些增加稍许推断代价,但可以提高模型精度的方法。

    比如增大模型感受野的SPPASPPRFB等,

    引入注意力机制Squeeze-and-Excitation (SE) Spatial Attention Module (SAM)等 ,

    特征集成方法SFAM , ASFF , BiFPN等,

    改进的激活函数SwishMish等,

    或者是后处理方法如soft NMSDIoU NMS等,

     

    5. yolo v5

    1)数据增强

    2)自适应锚框

    3)自适应图片缩放

    4Focus结构

    5CSP结构(用于BackboneNeck

    6GIOU

    7nms非极大值抑制

    1)输入端:Mosaic数据增强、自适应锚框计算、自适应图片缩放

    2BackboneFocus结构,CSP结构

    3NeckFPN+PAN结构

    4PredictionGIOU_Loss

  • 相关阅读:
    C Python类型互换
    C、C++中如何成功嵌入python
    常见Style 对象属性值
    转: , , 的区别
    dom4j: 用dom4j生成xml后第二行空行的问题
    dom4j: 生成的XML文件根节点 xmlns="" 的问题
    android
    android studio
    android studio
    FFmpeg编译: undefined reference to 'av_frame_alloc()'
  • 原文地址:https://www.cnblogs.com/cekong/p/15083395.html
Copyright © 2020-2023  润新知