定位:
针对分类利用softmax损失函数,针对定位利用L2损失函数(或L1、回归损失等)
人关节点检测
针对连续变量和离散变量需要采用不同种类的损失函数。
识别:
解决方案:
1.利用滑动窗口,框的大小和位置无法确定,目标检测需要巨大的计算量,pass
2.备选区域
利用区域选择网络ROI,将ROI处理成固定尺寸(与下游网络输入尺寸匹配),经过CNN后利用SVM分类(RCNN也会对输入的边界作补偿或修正)
基于区域选择网络也可以作为修正boundingbox的回归
RCNN的问题:
Fast RCNN:
先让整张图片通过一些卷积层得到整张图片的高分辨率特征映射,利用备选区域(可学习)的算法(如搜索),基于备选区域投影到卷积特征映射,之后从卷积特征映射提取属于备选区域的卷积块,而不是直接截取备选区域,将从卷积映射提取的图像块进行reshape,最后全连接分类
在训练时做全局反向传播学习
花费了大量时间在计算备选区域上
Faster rcnn:RoI Pooling
在fast rcnn的基础上插入RPN(Region Proposal Network)来学习预测备选区域
加强理解:https://cloud.tencent.com/developer/news/281788
https://blog.csdn.net/hunterlew/article/details/71075925
详解Faster-RCNN:https://zhuanlan.zhihu.com/p/31426458
YOLO/SSD:
Mask-RCNN可以用做姿态估计,语义分割,目标检测
1