2020-09-24
1、图像分类
图像分类主要是基于图像的内容对图像进行标记,通常会有一组固定的标签,而你的模型必须预测出最适合图像的标签。这个问题对于机器来说相当困难的,因为它看到的只是图像中的一组数字流。
上图片来自于Google Images
而且,世界各地经常会举办多种多样的图像分类比赛。在Kaggle中就可以找到很多这样的竞赛。最著名的比赛之一就是ImageNet挑战赛。ImageNet实际上是一个很神奇的图像库(截止到编辑本文时,其中就约有1400万张图像),拥有超过20000个图像标签。这是由斯坦福大学计算机视觉实验室维护的。ImageNet挑战或大规模视觉识别挑战(LSVRC)都是一个年度竞赛,其中具有诸如目标分类,目标检测和目标定位等各种子挑战。LSVRC,特别是目标分类的挑战,自从2012年,Alex Krizhevsky实施了著名的AlexNet,将图像的错误率降低到15.7%(在当时从未实现),便开始获得了很多关注。而最新的结果显示,微软ResNet的错误率为3.57%,Google的Inception-v3已经达到3.46%,而Inception-v4则又向前进了一步。
来源于Alfredo Canziani,Adam Paszke和Eugenio Culurciello于2017年撰写的文章《实际应用中深度神经网络模型的分析》(https://arxiv.org/pdf/1605.07678.pdf)
2、目标检测
图像中的目标检测涉及识别各种子图像并且围绕每个识别的子图像周围绘制一个边界框。这里有一个例子:
上图片来自于Google Images
与分类相比,这个问题要稍微复杂一点,你必须对图像进行更多的操作和处理。现在最著名检测方法叫做Faster-RCNN。RCNN是局部卷积神经网络,它使用一种称为候选区域生成网络(Region Proposal Network,RPN)的技术,实际上是将图像中需要处理和分类的区域局部化。后来RCNN经过调整效率得以调高,现在称之为faster – RCNN,一种用作候选区域生成方法的一部分用以生成局部的卷积神经网络。目前最新的image-net挑战(LSVRC 2017)有一个目标检测的挑战赛的冠军,被一个名为“BDAT”的团队所囊括,该团队包括来自南京信息工程大学和伦敦帝国理工学院的人员。
3、图像/实例分割
图像分割或实例分割包括对具有现有目标和精确边界的图像进行分割。
图片来自于是Google Images
它使用了一种叫做Mask R-CNN的技术,实际上就是我们前面看到的R-CNN技术上的几个卷积层。微软、Facebook和Mighty AI联合发布了这个称为COCO的数据集。它与ImageNet很相似,但它主要用于分割和检测。