论文名称:You only look once unified real-time object detection
论文链接
YOLO v1算法是发表在CVPR 2016年的文章,。YOLO是目前比较流行的object detection算法,速度快且结构简单,其他的object detection算法如R-CNN、Faster RCNN,一直采用的思路是proposal+分类 (proposal 提供位置信息, 分类提供类别信息)精度已经很高,但是速度还不行(two-stage中的proposal费时)。目前YOLO的更新版本还有YOLO v2、Yolo v3。
YOLO的主要特点:
- 速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。
- 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。
- 泛化能力强。
一、大致流程
(一)操作步骤
- Resize成448448,图片分割得到77网格(cell)
- CNN提取特征和预测:卷积不忿负责提特征。全链接部分负责预测:a) 772=98个bounding box(bbox) 的坐标 (x_center, y_center,w,h) 和是否有物体的confidence 。 b) 7*7=49个cell所属20个物体的概率。
3.过滤bbox(通过nms)
参考博客:https://blog.csdn.net/u014380165/article/details/72616238