我们提出了一种新的目标检测方法YOLO。先前的目标检测工作重新利用分类器来执行检测。相反,我们将目标检测作为一个回归问题来处理空间分离的边界框和相关的类概率。单个神经网络在一次评估中直接从完整图像预测包围盒和类概率。由于整个检测管道是一个单一的网络,因此可以直接对检测性能进行端到端的优化。
我们的统一架构速度非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。另一个更小版本的网络Fast YOLO每秒处理155帧,同时仍然可以实现其他实时检测器的两倍。与最先进的检测系统相比,YOLO定位误差更大,但在背景下预测误报的可能性较小。最后,YOLO学习对象的一般表示。当从自然图像推广到其他领域(如艺术作品)时,它优于其他检测方法,包括DPM和R-CNN。