PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS
ABSTRACT
最近,建立在卷积神经网络(CNN)上的图像表征已经被证明可以为图像搜索提供有效的描述符,其性能优于作为短向量表征的前CNN特征。然而,这种模型与几何感知重排序方法并不兼容,在某些特定对象检索基准上,仍然优于传统的图像搜索系统,这些系统依赖于精确的描述符匹配、几何重排序或查询扩展。这项工作回顾了两个检索阶段,即初始搜索和重新排序,使用从CNN派生的相同原始信息。我们构建了紧凑的特征向量来编码多个图像区域,而不需要向网络提供多个输入。此外,我们扩展了积分图像(integral images)来处理卷积层激活上的max-pooling,从而允许我们有效地定位匹配的对象。最终得到的边界框将用于图像重新排序。因此,本文显著改进了现有的基于CNN的识别管道:我们首次报告了在具有挑战性的Oxford5k和Paris6k数据集中与传统方法竞争的结果。
1 INTRODUCTION
基于内容的图像检索在过去十年中得到了持续的关注,导致了诸如可视化实例检索等任务的成熟系统。目前最先进的方法源于Sivic和Zisserman(2003)的Bag-of-Words模型,其成功主要归功于局部不变特征(Lowe, 2004)和大型可视码本(Philbin et al., 2007)。这些方法通常包括一个初始过滤阶段,其中所有数据库图像根据与查询图像的相似性进行排序,以及第二个重新排序阶段,这个阶段细化排名最高的元素的搜索结果。过滤阶段是在几个方面改进,如结合weak geometric information (Je ́gou et al., 2010),采用局部描述符的紧凑近似 (Je ́gou et al., 2010),,或学习聪明的码本(Mikulik et al ., 2013;Avrithis & Kalantidis, 2012)。在这种情况下,局部描述符被单独匹配,选择性匹配函数(Tolias et al., 2015;Tao et al., 2014)用来提高搜索质量。几何匹配模型(Philbin et al., 2007; Avrithis & Tolias, 2014) 是典型的以成对的方式应用在short-list图像的重新排名阶段的。查询扩展方法(query expansion)显著提高了性能(Chum et al., 2011),但代价是更大的查询时间。
卷积神经网络(CNN)取得的最新进展以及使用中间层激活作为特征向量(Donahue et al., 2013)为表征创造了机会,这些表征不仅在分类任务中,而且在图像或特定对象检索中具有竞争性。一些作品已经研究了这个研究方向,例如基于全连接 (Babenko et al., 2014; Gong et al., 2014) 或基于卷积层(Razavian et al., 2014b; Azizpour et al., 2014; Babenko & Lempitsky, 2015)的全局或局部表征。基于CNN特性的性能迅速提升到了可竞争的程度,甚至优于了聚合局部特征的pre-CNN研究(Je ́gou et al., 2012; Radenovic ́ et al., 2015)。特别是,卷积层的激活加上全局max-pooling操作(Azizpour et al., 2014)产生了具有高度竞争性的紧凑图像表征。唯一限制是,这些方法不兼容涉及最后的重新排序阶段的几何感知模型。
这项工作重新使用基于CNN的特性进行过滤和重新排序。我们做了以下三点贡献。
- 首先,我们提出了一种源自卷积层激活的紧凑的图像表征,它编码多个图像区域,而不需要将多个输入重新输入到网络,这是基于最近的Fast-RCNN (Girshick, 2015)和Faster-RCNN (Ren et al.,2015)方法得到的想法,但这里的目标是特定的对象检索。基础原始表征在所有阶段(初始检索和重新排序)中使用。
- 其次,我们采用generalized mean (Dolla ́r et al., 2009) 使得带有max-pooling的积分图像(integral images)能够使用。在CNN激活的2D maps中,这种有效的方法被直接用于特定对象定位(参见图1)。
- 第三,我们的定位方法用于图像重新排序,并使我们定义了一个简单而有效的查询扩展(query expansion)方法。
这些方法是互补的,当它们结合在一起时,第一次产生了一个能与 Oxford和 Paris building基准竞争的系统,该系统采用了最先进的基于局部特征的重新排名方法。我们的方法比以往基于CNN的方法有很大的优势,并且在实践中更加高效
2 RELATED WORK
CNN based representation. 一个典型的CNN包括几个卷积层,然后是全连接层,最后是一个softmax层,产生一个训练类的分布。可以考虑使用中间层的激活来训练分类器,而不是使用这种固有的分类器。特别是,全连接层的激活被证明是非常有效的,并且能够适应不同的领域(Oquab et al., 2014),如场景识别(Donahue et al., 2013;Sicre & Jurie, 2015),目标检测(Iandola et al., 2014),语义分割(Girshick et al.,2014)等。在图像检索中,采用全连接层作为全局描述符,然后进行降维(Babenko et al., 2014)。它们也被用作区域描述符,与数据库描述符(Razavian et al., 2014a)进行比较或以VLAD方式聚合(Gong et al.,2014)。
最近的研究从卷积层的激活中获得了视觉表征。这可以通过stacking激活(Girshick et al.,2014)或对每个特征通道执行空间max-pooling(Azizpour et al., 2014)或sum-pooling(Babenko & Lempitsky, 2015)来实现。根据Azizpour等人(2014)的研究,这种表征为远离源(训练)数据的测试数据提供了更好的泛化特性。值得注意的是,在特定对象或场景检索中,使用卷积层而不是全连接层可以获得更高的性能。Babenko和Lempitsky(2015)最近的工作表明,当图像表征被白化时,sum-pooling比max-pooling表现更好。最后,Kalantidis等人(2015)提出了空间和特征通道加权方法,可以显著提高性能。他们的方法是对我们提出的过滤和重新排序阶段的补充。
最近的例子利用来自全连接层的信息来执行通用对象检测(Iandola et al., 2014; Papandreou et al., 2014)。这样的方法对于为大规模图像检索重新排序的目的来说是禁止。因为它们的计算量大,固有特征对特定目标的匹配不是最优的。
Localization. 近年来,滑动窗口原理在许多目标定位方法中获得了相当成功的应用。由于可能存在大量窗口,穷举搜索的代价非常高。然而,积分图像(integral images)(Viola & Jones, 2001)为单个区域的评估提供了恒定成本的解决方案。这种吸引人的方法适用于通过sum-pooling操作构造的特征向量。
Lampert等人(2009)利用branch-and-bound搜索来避免穷举搜索,利用 Efficient Subwindow Search(ESS)给出了全局最优解。他们的工作使用了积分图像(integral images),这也被用于后期ESS的改进(An et al., 2009)。An et al.(2009)将定位问题形式化为最大子阵列问题,与Chen et al.(2013)类似,他们使用了Bentley算法(Bentley, 1999)。积分图像基于VLAD或Fisher vector(Van de Sande et al., 2014)来帮助多个区域候选(Uijlings et al.,2013)的评估。由于给定表征中固有的sum-pooling操作,上述所有方法都利用了积分图像。在本文中,我们扩展了积分图像,在CNN激活maps上执行max-pooling,这被证明是描述区域(相对于整个图像)的更好选择。
在图像检索中也提出了几种目标定位技术。Lampert(2009)提出了一种在区域和图像之间交替的两层branch-and-bound方法。积分图像大大加快了Lin和Brandt(2010)通过Bag-of-Words进行定位的工作。总体思想与我们的工作有相似之处。然而,我们的区别在于使用带有max-pooling的基于CNN的表征。一些方法(Tao et al.,2014;Shen et al.,2014)将局部特征单独索引用于定位。在我们的例子中,定位方法建立在一个紧凑的表征之上,最初用于过滤阶段。最后,Arandjelovic和Zisserman(2013)提出了一种基于VLAD的定位策略,计算多个图像区域的相似度,通过回归得到更精确的定位。
3 BACKGROUND
我们考虑一个预先训练好的CNN,抛弃所有全连接层。给定一个大小为WI×HI的输入图像I,卷积层的激活(响应)形成W×H×K维的三维张量,其中K为输出特征通道的数量,即多维滤波器。空间分辨率W * H取决于网络架构、被检测层和输入图像的分辨率。我们假设在最后一步使用了Rectified Linear Units(ReLU),以保证所有的元素都是非负的。
我们将这个三维响应张量表示为一组二维特征通道响应X = {Xi}, i = 1…K, Xi是二维张量,表示第i特征通道在有效空间位置Ω的响应,Xi(p)即是在一个特定的位置p的响应。因此,在所有位置(Azizpour et al ., 2014)由空间max-pooling构造的特征向量表示为:
(即从第i个通道的所有位置的特征值中选择max的值作为该i通道的输出,最后得到一个k维的向量fΩ)
Maximum activations of convolutions (MAC). 两幅图像将使用上述生成的k维向量的余弦相似度进行比较。由于max-pooling操作在一个大小为W×H的区域,这种表征(称为MAC)不编码激活的位置(不像全连接层的激活)。它编码每一个卷积过滤器的最大“局部”响应,因此具有转换不变性。在下面的所有内容中,我们考虑研究网路的最后卷积层。
图2显示了对图像相似度贡献最大的patches。由于结构的重复,它们要么对应于同一物体部分,要么对应于相似的部分。通过简单地从有着任意分辨率或宽高比的输入图像中减去平均像素值(Iandola et al., 2014)去抽取MAC。不需要剪切图像或改变图像宽高比(Azizpour et al., 2014)。
在单个单元上执行的max-pooling操作为结果表征提供了转换不变性。这与从要求对象对齐的全连接层派生的表征形成了对比。在我们的例子中,由于使用的是训练数据,我们假设对象是向上的(即正向放好的,不是乱转的),我们简单地受益于CNN提供的旋转容忍度。同样也代表了对尺度变化的容忍度。
4 ENCODING REGIONS INTO SHORT VECTORS
本节描述我们如何利用CNN卷积层的激活来推导图像区域的表征。对区域向量进行聚合,生成用于图像检索过滤阶段的短签名。
Region feature vector. 描述在第3节的特征向量fΩ是整张图I的表征。现在,我们考虑一个矩形区域,并定义区域特征向量为:
其中是考虑区域第i个通道的最大激活值。
对于考虑的特征映射(而不是输入图像平面),区域R被定义在所有有效的位置空间Ω上。大小为1的区域对应于在特定位置由单个激活值组成的特征向量。我们现在能够构建多个区域的表征(即将输出的W*H*C特征中每个channels的同个区域位置使用max-pooling,最后也能得到一个1*1*C的区域表征),而无需向CNN重新输入额外的输入,类似于最近的RNN变体(Ren et al.,2015;Girshick, 2015),大大降低了加工成本。
现在假设一个线性映射,由给定区域R映射回到原始图像。由于接收域较大,所提出的区域向量捕获的图像区域比back-projected的图像区域大。类似的效果发生在对象检测上下文中(Iandola et al., 2014),其中以滑动窗口的方式应用了全连接层。
R-MAC: regional maximum activation of convolutions.我们现在考虑一个由R个不同大小的区域组成的集合。区域的结构与Razavian等人(2014b)提出的相似,但我们在CNN响应映射(即指定卷积层的输出)上定义它们,而不是在原始图像上。我们在L个不同尺度上采样正方形区域。在最大尺度(l = 1)下,确定区域大小尽可能大,即其高度和宽度都等于min(W,H)。区域采样均匀,使连续区域之间的重叠尽可能接近40%。注意原始图像的宽高比对我们提取的m个区域有影响(只有输入图像为正方形时才有1个区域)。在其他尺度l中,我们均匀采样l×(l + m−1)区域,宽度为2min (W, H)/(l + 1),如图3(左)所示。
(从左边的图可见,假设响应映射大小为W*H=5*6,当l=1时,区域宽度为2min (W, H)/(l + 1) =10/2= 5,意思是分出两份,一个区域占两份,大小是5,所以第一个的灰色区域为5*5的正方形;当l=2时,区域宽度为2min (W, H)/(l + 1) =10/3,意思是分出3份来,一个区域占两份,大小是10/3,所以区域大小为中间图的样子;当l=3时,区域宽度为2min (W, H)/(l + 1) = 10/4=2.5,意思是分出4份来,一个区域占两份,大小是10/4)
然后我们计算每个区域相关的特征向量,并使用l2归一化(l2-normalization)、PCA-whitening(Je ́gou & Chum, 2012) 和l2归一化三步进行后处理。我们将收集到的区域特征向量相加,最后进行l2归一化处理,得到一个单一的图像向量。这种选择使维数保持在较低的水平,与特征通道的数量相等。然而,在我们的实验中,我们表明,所产生的表征,即R-MAC,提供了一个比对应的有着相同维数的MAC显著的性能。注意,区域向量的集合可以看作是一个简单的核,它可以交叉匹配所有可能的区域,包括不同尺度的区域。
5 OBJECT LOCALIZATION
在本节中,我们提出了一个扩展的积分图像,以在一个二维特征通道响应映射的集合X上执行近似的max-pooling操作,这为我们的CNN的方法提供了一个粗糙但有效的定位。
Approximate integral max-pooling. 注意到非负的响应Xi,利用generalized mean(Dollár et al ., 2009)去近似关联一个给定区域R的特征值fR,i,估计值如下:
(即由generalized mean方法近似得到max-pooling的更高效的计算方法,这个得到的和可以由积分图像的4项之和 (Viola & Jones, 2001)简单得到,这就是这里使用积分图像的用处,使得区域特征向量的max-pooling能够快速计算)
图3(中)显示了在几个图像区域上估计的平均近似误差。我们将近似误差报告为对应响应集大小的函数,在该响应集上计算最大值。不同响应集的大小是使用的所有可能区域的一个结果。指数α越高将能导致更好的近似值,而应用于更多的元素会使近似不那么精确。
通过这种方式来近似最大值,我们可以使用积分图像(Viola & Jones, 2001)去近似定义在任何矩形区域R的区域特征向量fR 。对于每个通道,我们构建二维张量的积分图像,二维张量在位置p的值等于 。然后,方程(3)的和可以由4项之和 (Viola & Jones, 2001)简单得到。这使得我们能够高效地计算多个区域的max-pooling,从而构建相应的特征向量。这与许多区域的显式构造形成了对比,这些区域的表征来自于全连接的层,因为需要调整大小/裁剪和重新向网络输入每个区域,所以在显式构造中禁止使用这种方法。
我们通过测量精确向量和近似向量之间的余弦相似度来评估近似质量。这种相似性的分布如图3(右)所示,并对随机选取的10幅图像的所有可能区域进行测量。所提出的近似值即使对于中等的α值得到的效果也是非常精确的。在我们所有的实验中,我们都设置了α= 10。
Window detection. 现在让我们假设有另一个描述单个对象的图像Q,即通过定义感兴趣对象的边界框进行剪裁。我们用q表示对应的MAC特征向量。在图像I的CNN激活X上定义的与q相似度最大的2D区域计算为 :
(即将所有得到的区域特征向量R-MAC和整个卷积层输出的特征向量MAC根据等式4计算相似度,从中选出相似度最高的区域特征向量,那么其对应的区域应该就能够很好地定位图像Q中感兴趣对象的边界框)
最大化相似度的区域被映射回原始图像I,其有着像素的精度,提供一个描绘Q中对象的粗糙定位。对应的相似度并不把图像I的所有可视内容都考虑进来,因此不受背景杂波的影响。由于可能区域的数量在O(W2H2)区间内,通过穷尽搜索蛮力检测最优区域的代价较大。在初步测试中,我们评估了基于branch and bound搜索的全局最优解,如ESS (Lampert et al., 2009)中一样。对于我们的表征,必要的边界是不重要的。在我们的例子中,搜索速度没有明显加快:最大值不够明显,需要考虑大量的区域,而维护优先级队列的开销很高。
AML: approximate max-pooling localization.相反,我们限制评估区域的数量,并用简单启发式(simple heuristics)方法在局部优化最佳区域。使用搜索步长t 来均匀采样候选区域。丢弃宽高比大于查询区域s倍的区域。以坐标下降的方式细化最佳区域的参数,允许最大3个单位的变化。细化过程要重复5次。实验表明,检测区域与最优区域的重叠程度较高。(近似实现定位的方法)
6 RETRIEVAL, LOCALIZATION AND RE-RANKING
Initial retrieval. 对所有数据库图像计算MAC或R-MAC特征向量。同样,在查询时我们对查询图像进行处理并提取相应的特征向量。在过滤阶段,我们直接评估查询和所有数据库向量之间的余弦相似度。因此,我们根据MAC或R-MAC向量的相似性得到初始排序。
Re-ranking. 我们考虑了第二次重新排序阶段,就像在具有局部特征的空间验证(Philbin et al., 2007)中通常执行的那样。将考虑N个top图像的short-list,并将AML(如第5节所述,即定位)应用于查询和数据库图像对上。注意,查询图像现在由MAC向量表示,因为它在AML中使用,而数据库图像由X表示。对于每一张重新排序的图像,我们获得一个由与查询图像相似度最大化的区域给出的分数。这种相似性用于对short-list的元素重新排序。此外,还提供了查询对象的粗略定位。
Remarks: 在过滤阶段,可以使用白化MAC(在8节中描述白化)或R-MAC,而定位过程采用l2-normalized MAC的相似性。然而,一旦查询对象被定位,那么,根据选择的过滤方法,查询图像和检测区域的相似度将通过白化MAC或R-MAC计算出来。这个相似度分数用于执行重新排序。所需的表征仅在查询时间为检测区域构造,并通过积分图像有效地获取。
Query expansion (QE). 重新排名会得到排名最靠前的位置的正图像。然后,我们收集5幅排名最高的图像,将它们与查询向量合并,计算其均值。最后,利用与该均值向量的相似性对前N幅图像重新排序。
7 IMPLEMENTATION DETAILS
我们观察到,对大于128(所有响应的0.001%)的X的响应值进行阈值设定,并将每个值映射到最接近的更小的整数(floor操作),会导致较小的损失。这样就可以允许带有查找表的α-th power计算,并加速积分图像的构造。此外,我们通过对同一张α-th power查找表进行二分搜索来近似式(3)的α次方根。这个过程使得最优窗口搜索更加高效。
以X表示的响应图是稀疏的(Agrawal et al.,2014)。特别是,利用Krizhevsky等人(2012)在Oxford Buildings数据集(Philbin et al.,2007)上训练的网络将导致81%的响应值为零,便于存储。我们进一步通过将响应一致量化为8个值来减少内存需求。这将导致更多的元素映射到相同的值。因此,我们使用delta编码来存储非零值的位置,并且每个非零元素只使用1字节。注意,在相同的网络中,分辨率为1024×768的图像对应大小为30×22的特征通道响应图。最后,一个图像需要大约32 kB的内存。在重新排序时,我们每次构造一个积分图像,并对其元素使用双精度(8字节)。
8 EXPERIMENTS
本节给出我们勇于图像检索的紧凑表征的结果,评估AML的定位精度,最后将其用于检索重新排序。
Experimental setup. 我们在分别由5063幅图像和6412幅图像组成的Oxford Buildings数据集(Philbin et al., 2007)和Paris数据集(Philbin et al., 2008)上评估了所提出的方法。我们将这些数据集称为Oxford5k和Paris6k。我们还使用了100k的Flickr图片(Philbin et al.,2007)分别组成Oxford105k和Paris106k。该来自Flickr图片 (Je ́gou et al., 2010) 的100k干扰集图像被额外使用以实现更大的数据规模。检索性能以mean Average Precision(mAP)来衡量。我们遵循标准协议并使用在查询图像上定义的边界框。这些边界框也被用来评估定位精度。在Oxford5k上测试时,主成分分析是在Paris6k上学习的,反之亦然。为了公平起见,我们只直接将我们的结果与以前没有在测试集上执行学习的方法进行比较。
我们工作的重点不是训练CNN,而是从卷积层中提取视觉描述符。我们使用了文献中广泛使用的网络:Krizhevsky等人(2012)的AlexNet和Simonyan & Zisserman(2014)的very deep network (VGG16)。我们之所以选择VGG16而不是VGG19,是因为我们发现后者在特征提取成本较高的情况下并不总是能够获得更好的性能。我们的表征是从最后一个池化层提取的,其中AlexNet有256个特征通道,VGG16有512个特性通道。MatConvNet (Vedaldi & Lenc, 2014)用于提取特征。
Localization accuracy. 为了评估AML的准确性,我们使用成对的Oxford5k查询图像及其对应的正图像。我们首先执行穷举搜索来检测全局最优窗口。然后,我们应用我们的加速检测器,评估较少的区域,并最终细化最好的一个区域。在这两种情况下,每个窗口计算都使用近似的max-pooling。我们报告了与最优窗口的交并集(IoU),以及与穷举情况相比评估的窗口数量的百分比(即优化方法查询的窗口数量/穷举方法查询窗口数量)。结果如表1(左)所示。我们提供了一个大的加速,同时保持高重叠的最佳检测。回想一下,我们的目的是应用这个检测器来快速重新排序。测量IoU为定位精度提供了证据,但是我们观察到它并不直接影响检索性能。我们最终为重新排序设置s = 1.1和t = 3。
为了评估与ground truth标注相关的定位精度,我们交叉匹配每个建筑存在的5张查询图像。其中一个用作查询(裁剪边框),而对于另一个,我们将检测到的区域与ground-truth标注进行比较。在Oxford5k (Paris6k)数据集上,穷举评估获得的IoU值为52.6%(52.9%),加速方法获得的IoU值为51.3%(51.4%)。精度损失是有限的,而定位大约是180倍快。AML提供了一个低计算代价的粗略定位。当用单线程实现对1000张图片重新排序时,这样的设置导致使用AlexNet的平均重新排序查询时间为2.9秒。
Retrieval and re-ranking. 我们使用MAC和R-MAC紧凑表征来评估检索性能。对MAC向量分别进行l2-归一化、PCA-白化和l2-归一化,对R-MAC的相应处理则如第4节所述。表1(右)给出了Oxford5k上的结果。我们评估不同的输入图像分辨率,观察原始图像大小为1024时提供更高的性能。请注意,MAC与Azizpour等人(2014)提出的MAC类似,但是他们的过程仍然受到标准输入大小和高宽比的限制。由于两个特征向量具有完全相同的维数,该算法在不增加额外代价的情况下,大大提高了算法的性能。将不同尺度的区域聚合在一起,即L = 3意味着将尺度l = 1、l = 2和l = 3的区域组合在一起。我们在下面设L = 3。为了分解R-MAC的组成部分,我们通过只聚集l = 3的区域来构造R-MAC。使用VGG16在Oxford5k数据集上实现的mAP等于63.0。聚合l = 2和l = 3两个区域将mAP提高到65.4。最后,添加l = 1(原来的R-MAC)后执行66.9的mAP效果(见表1)。在Oxford105k上的过滤时间平均为12 ms。
接下来我们使用AML对图像进行重新排序,在Oxford105k上对多达1000张图像进行重新排序的性能评估。性能得到了持续的提高,如图4所示。R-MAC带来了更大的好处,VGG16表现比AlexNet更好。如第6节所述,查询扩展(QE)方法以较低的额外成本提高了性能,因为只对重新排序的short-list重新计算相似度。最后,我们使用1M张干扰物图像进行了大规模实验,结果如图4所示。AML将性能提高了13%。
图5展示了使用MAC排序和使用AML重新排序的例子。回想一下,我们只提供了一个粗略的目标定位,因为我们的主要目标是获得改进的图像相似度。此外,所提供的定位对于重新排序来说足够精确。
Comparison to the state of the art. 我们将提出的方法与最先进的紧凑表征和基于局部特征的方法进行比较,这些方法执行精确的描述符匹配、重新排序或查询扩展。结果如表2所示。使用AlexNex和VGG16分别为R-MAC生成256维和512维的向量。对于紧凑的表征,我们的小尺寸R-MAC优于所有其他方法。在Paris数据集上的更好性能是从预先训练网络的性质继承的;使用VGG的基准MAC在Oxford5k上达到55.2的mAP,在Paris6k上达到74.7的mAP。
与以往基于CNN层的描述方案不同,我们的方法在几何匹配和查询扩展方面可与基于局部特征的最佳方法竞争。我们的AML甚至可以超过它们:虽然我们在Oxford数据集上的成绩较低,但我们在Paris数据集上取得了最好的成绩,而且据我们所知,在这个基准测试中,我们的成绩超过了所有已发布的结果。Paris6k数据集上最好的成绩是由Arandjelovic和Zisserman(2012)(91.0)和Zhong等人(2015)(91.5)报告的。这些都是通过学习Paris6k本身的码本和执行索引数据集的预处理来实现的。
Discussion about other CNN-based approaches. Razavian等人(2014b)提出执行区域交叉匹配(cross-matching),并累积每个查询区域的最大相似度。我们利用R-MAC中区域向量的集合来评估交叉匹配过程;我们简单地跳过最后的聚合过程,单独保留区域向量。交叉匹配在Oxford5k中作为过滤阶段能达到75.2% mAP,而在此之上使用AML重新排列作为补充,能将性能提高到78.1%。然而,交叉匹配有两个缺点。首先,需要将区域向量单独存储,增加|R|倍数的内存需要,其中|R|为提取区域的数量。其次,复杂度代价在索引图像的数量上是线性的,并且相当高,因为它需要计算每个图像的|R|2(例如1024 (Razavian et al., 2014b))个内积。Razavian等人(2014b)的工作通过扩大提供的查询边框,遵循了一种非标准的评估协议。另外,他们向CNN提供了32幅576×576分辨率的图像,特征提取的成本非常高。Xie等人(2015)最近的工作与他们的工作非常相似,在检索和分类方面都有应用。
Babenko和Lempitsky(2015)表明,在最终的图像向量进行了PCA白化后时,卷积层激活的全局sum-pooling效果优于max-pooling。如果不使用白化,那么后者更好。在目标定位中,我们利用AML在查询时对大量候选区域进行了有效的评估。对每个候选区域向量进行白化,会显著增加白化的代价,所以在该任务重是禁止的。为了我们提出的R-MAC和AML以及测试性能,我们将max-pooling切换到sum-pooling。注意,sum-pooling是我们的integral max-pooling的参数α=1的特殊情况。在Paris106k上切换到sum-pooling使R-MAC得到69.8的mAP, R-MAC +AML +QE则能得到76.9的mAP。这些分数可以直接与表2中的分数进行比较,并表明我们的选择在所有情况下都是更好的。
9 CONCLUSIONS
在这项工作中,我们通过使用卷积层的CNN激活来重新访问过滤和重新排序检索阶段。我们的紧凑向量表征用简单的聚合方法编码了几个图像区域,并被证明优于现有的竞争对手。我们的定位方法提高了最初基于紧凑表征的检索系统的性能。在过滤阶段使用采用的相同的CNN信息也用来进行重新排序。我们的方法与使用昂贵的几何匹配或查询扩展的最先进的方法竞争,在Paris数据集上取得了最高的性能,并提供了比现有的基于CNN特征的方法更好的性能。最近的一项研究(Arandjelovic et al.,2015)显示了如何通过基于MAC相似度的端到端微调来提高MAC性能。