Saliency Map 最新综述

Saliency Map 最新综述

本文是翻译文，原文信息如下：

Ali Borji and Laurent Itti,
State-of-the-art in Visual Attention Modeling ,
IEEE Transactions on Pattern Analysis and Machine Intelligence, In press.

                                    【声明：如需要，请引用原文

                                                 由于本人水平有限，翻译中可能有错误，仅供参考。

                                                 未经本人同意，请勿转载！】

题目：注意力模型的当前发展水平

作者：Ali Borji, and Laurent Itti

摘要：视觉注意力的建模，特别是刺激驱动的，基于显著性的注意力，在过去25年内已经是一个非常活跃的研究领域。现在有很多不同的模型，除了给其他领域带来理论贡献以外，这些模型已经在计算机视觉，移动机器人，和认知系统展示出成功的应用。这里我们从计算角度综述应用在这些模型的基本概念。我们提出了对大概65个模型的分类，提供了一个方法、性能和缺点的关键的比较。特别是，提出了从行为研究和计算研究得出的13个标准，来量化笔记注意力模型。并且，我们解决了一些具有挑战的模型问题，包括计算模型的生理解释，与眼动数据库的关系，自上而下和自下而上的分离，以及构建有意义的性能指标。最后，我们突出注意力模型的今后研究方向，为未来提出见解。

1，介绍

　　每秒钟有大量的视觉信息进入人们的眼睛[1][2]。如果没有一个智慧的机制来滤除视觉数的中的错误的数据，实时处理这些数据将是一个非常恐怖的事情。高层次的认知和复杂处理，比如物体认知或者场景理解，都依赖这些经过这种方式【注：一个智慧的机制来滤除视觉数的中的错误的数据】转换过的易处理的数据。本文将讨论的这个机制就是视觉注意力，他的核心在于选择机制的思想以及相关的概念。对人类来说，注意力通过已经进化为高分辨率的中央凹的视网膜【注：中央凹（central fovea）：是眼球后极视网膜上一个浅黄色的区域，称为黄斑。其中央有一椭圆形小凹，称为中央凹】和一个底分辨率的周围区域实现的。尽管视觉注意力将这些解剖学组织指向场景中的重要部分来采集更具体的信息，（视觉注意力模型的）主要问题是基于这个指向的计算机制。

　　近年来，科学研究的很多方面已经旨在回答这个问题。心理学家研究了视觉注意力的相关行为，比如变化盲点[3][4]【注：变化盲点Change blindness是一个心理学现象，当刺激发生变化时，人们往往无法注意到】，无注意力盲点[5]【注：无注意力盲点inattentional blindness是我们无法注意到一些显而易见的激励】和注意瞬脱[6]【注：注意瞬脱attenional blink是指在一个连续的注视过程中，我们会短时间内无法注意到一些显著的物体或者其他东西】。神经生理学家证明了神经元是如何适应自己来更好的感知感兴趣的物体[27][28]。计算神经科学家已经构建了现实的神经网络模型来模拟和解释注意力行为（比如[29][30]）。受这些研究的鼓励，机器人学家和计算机视觉科学家已经试图解决计算复杂度的内在问题来构建能够实时工作的系统（比如[14][15]）。尽管现在在以上提及的研究领域已经有很多模型，这里我们仅讨论能够计算图像或者视频的显著图的模型（见下节的定义）。对于计算视觉注意力的计算模型的一般综合，包括偏向竞争[10]，选择调节[15]，注意力模型的规范化[181]，和其他模型，参考[8]。从心理学、神经生理学以及计算角度出发的注意力模型的综述，参考[9][77][10][12][202][204][224]。图1显示了注意力研究的分类，并突出了我们的综述范围。

1.1 定义

　　尽管术语 attention，saliency和gaze经常被相互替换使用，但是他们之间有更细微的描述他们的定义。

　　注意力attention是一个普遍概念，覆盖了影响选择机制的各个方面，无论他们是场景驱动的自下而上的机制或者是预期驱动的自上而下机制。

　　显著性saliency直觉上刻画了场景的一些部分，可能是物体或者区域，这些部分似乎相对他们的临近区域突出。术语“salient” 通常在自下而上的计算模型[18][14]中提及到。

　　Gaze，一个眼睛和脑的协调运动，通常被用作注意力在自然行为中的代名词。（见[99]）。比如，一个人或者一个机器人必须和周围的物体进行交互，在场景中移动是控制注意点来执行任务。从这点讲，注意点控制同时集视觉，行为和注意力来执行感觉运动协调，这是某些特定行为（比如到达reaching和理解grasping）所必须的。

1.2 起源

　　很多注意模型的基础能够追溯到Treisman&Gelade's[81]，他们提出的“特征整合理论”陈述了那些视觉特征是重要的以及他们如何组合来在弹出式的和连续的搜寻任务中引导人们的注意力。Koch and Ullman[18] 提出了一个前馈模型来组合这些特征，并引入了saliency map的概念，saliency map 是表示场景位置突出性的地形图。他们同时引入了一个winner-take-all神经网络，这个网络选择最显著的位置，利用返回抑制机制使注意力焦点移向下一个最显著的位置。一些系统随即创建出来，利用相关模型来处理数字图像[15][16][17]。Koch&Ullman模型的第一个完整的实现以及验证由Itti等人[14]提出（见图2），并应用于人造场景和自然场景。从此以后，这个领域受到持续的关注。基于不同对注意力模型的假设的各种各样的方法涌现出来，并在不同的数据库上进行验证。在接下来的章节中，我们提出一个统一的概念框架，在这个框架下我们将讨论每个模型相比其他模型的优点和缺点。我们将给作者深入的分析关于注意力模型的当前技术的发展，确定当前依旧面临的问题。

　　对注意力建模的主要关注点在于如何，何时以及为什么我们选择行为相关的图像区域。由于这些原因，提出了一些定义和计算视角。一个通用的方法是从前期人类视觉系统（early human visual system）的解剖学和功能性来获得灵感（比如[14][15][16][191]）。另外，一些研究假设视觉注意力服从那些函数，并将它形成一个计算框架。比如，大家一致认为视觉注意力能吸引更多的信息[144]，更多的意想不到的场景区域[145]，或者关于一个任务的最大化回报[109]。

1.3 经验基础

　　注意力模型通常通过观测者的眼球运动来验证。眼球运动传达了关于认知过程的重要信息，比如阅读、视觉搜索和场景感知。因此，他们通常被看做是注意力转移的表达方式。比如说，在场景感知和视觉搜索中，当激励比较混乱时，注意点会变得更长，同时扫描线变得更短[19]。任务的难度（比如说全面阅读对主旨阅读，或者在场景中寻找人对用于记忆力测试的图像浏览）明显影响着眼球运动行为[19]。尽管注意力模型和眼球运动预测模型经常用眼球运动数据进行验证，但是在范围、方法、激励以及细节的层次上存在着细微的差别。眼球运动预测模型（扫描规划）试图理解注意力的数学支撑和理论支撑。一些实例包括搜索过程（比如优化搜索理论[20]，信息最大化理论[21]，Mr.Chips: 一个理想观测者的阅读模型[21]，EMMA（眼球运动和注意力运动）模型[139]，控制眼球运动的HMM模型[26]和约束的随即游动模型[175]）。为了这个目的，他们通常使用简单可控制的激励，同时另一方面，注意力模型利用启发的、认知的和神经特征的组合，以及机器学习和计算机视觉的一些工具，来解释在简单和复杂场景的眼球运动。注意力模型同时关注实际实用性。对于所有的眼球运动模型的综述超出了本文的范围。感兴趣的读者参考关于眼球运动的研究[22][23][127]和眼球跟踪应用的宽度优先的调查[25]。

　　注意到眼球运动并不总是表示出真实的事实，而且存在着其他度量标准来衡量模型。比如，正确报告图中一次变化的准确性（也就是 search-blindness[5]），或者预测能够被记住的那些视觉吸引东西，这些能显示出单独分析眼球运动所或略的注意力的重要方面。很多视觉搜索的注意力模型用精确估计反应时间(RT)（比如，RT/setsize slopes in pop-out and conjunction search tasks[224][191]）。

1.4 应用

　　本文中，我们将关注描述模型本身。但依然有很多关于今年来提出的模型的技术应用，并对注意力模型的关注度会进一步的增加。我们对模型的应用分成三个类别：视觉和图形，机器人和图3所示的其他领域。

1.5本文的申明和组织

　　注意力很难正式定义成一个被广泛接受的方式。然而，从计算角度来看，很多注意力模型（至少那些在自由注视的眼球运动的前几秒上测试的模型）能被统一到以下的普遍的问题称述中。假设K个观察员看了N副图，令*是眼睛注视点以及他们对应的时间*。对于第i副图的k个观察员的注视点的个数用*表示。注意力模型的目的是找到一个函数（stimuli-saliency map）*，这个函数最小化眼睛注视点预测的误差，也就是*。这里一个重要的点是以上的定义更好的符合自下而上显式注意力模型，也许并不总是覆盖视觉注意力的其他方面。（比如显式注意力或者top-down因素），这些不能用眼球运动来解释。

　　这里我们对主要的应用于任意图像的注意力模型进行系统的综述。第二章将介绍分类这些模型的几个因素。在第三章，我们根据这些因素总结和分类视觉模型。第四章讨论这些模型的局限性和所遇到的问题。第五章对全文进行总结。

2 分类标准

　　我们从引入13个标准f1...f13开始，这些标准将用来对注意力模型进行分类。这些标准都源于注意力在行为和计算方面的研究。一些标准描述了模型（f1，f2，f3），其他的（f4...f7，f12，f13）并不直接相关，但是他们对于觉得这些模型的实用性非常重要。

2.1 Bottom-up VS Top-down模型

　　模型之间一个主要的差别是他们是否依赖bottom-up因素(f1)，top-down因素(f2)或者是二者的组合。

　　Bottom-up因素主要基于视觉场景的特性（激励驱动）[75]，而top-down因素（任务驱动）由认知现象如知识、期望、奖励和当前任务决定的。

　　由bottom-up方式吸引我们注意力的感兴趣区域必须充分地不同于与其周围特征。这种注意力机制同样叫做外在的，自动的，灵活的或者周边的因素[78]。Bottom-up注意力是快速的，无意识的，并最可能是前馈的。一个典型的bottom-up注意力的例子是看一副在有很多条垂直条纹中只有一条水平条纹的场景图中，注意力马上就会被吸引到水平条纹上[81]。尽管很多模型属于这一类型，他们仅仅解释了眼球运动的一小部分，因为大多数注视点是由任务驱动的[177]。

　　另一方面，top-down注意力比较慢，任务驱动，有意识的和闭合回路的[77]。top-down注意力最著名的例子是来源于1967年的Yarbus[79]，他展示了依靠当前任务的眼球运动的如下实验：测试者要求在不同的条件（问题）下看同一场景（在有一家人的房屋中，一个不速之客进入房间），这些问题包括：“估计这个家庭的物质环境”，“人们的年龄是多少”，或者简单的仔细观察场景。对于以上不同的例子，眼球运动明显不同。

　　模型探索了三个主要的针对特定问题的top-down因素的来源，这个问题是：我们如何觉得看哪里？一些模型解决了视觉搜索中，注意力被吸引到我们要寻找的物体的特征上这样的问题。另外一些模型探讨了我们在场景中看到的位置的内容或者主旨（gist）的角色。在某种情况下，很难准确的说我们在场景中看哪或者看什么，因为由一个复杂的任务管理眼睛的注视点，比如在开车的过程中。虽然原则上，任务要求注意力包含其他两个因素，在实际中，模型往往分开关注他们。场景布局也被看作是top-down注意力的一个来源[80][93]，并在这里与场景内容一起考虑。

　　1), 物体特征。有相当多的关于在现实世界搜索任务中存在目标驱动的注意力指引（attention guidance）的证据[84][85][23][83]。在经典的搜索任务中，目标特征在一个无处不在的注意力指引的来源[81][82][83]。考虑在简单的目标箭头是红色的箭头簇中搜索：注意力快速地指向那个红色的箭头。拿这个与更负责的目标物体做比较，比如说自然情景中的行人，这种情况下尽管很难定义目标，但是依然存在一些特征（比如直立形式，圆头，直直的身体）指引视觉注意力[87]。

　　引导搜索理论[82]提出注意力能够偏向于感兴趣的目标，通过调整贡献于注意力的不同特征的相对增益。回到我们以前提出的例子中，当看一个红色的物体，一个很高的增益赋给红色。Navalpakkam等人[51]提出优化特征组合（BU 显著模型[14]的通道）按照最大化目标与背景的信噪比来检测目标。在[50]中，将一个基于物体唯一性的准则的加权函数，在将每幅图加起来之气，作用到每幅图中来定位物体。Butko等人[161]基于由Najemnik等人[20]在一个特定中进行人脸检测和跟踪的观察框架中陈述的相同的视觉搜索原理，构建物体搜索模型，但是他们没有利用这么模型解释在搜索人脸中眼睛注视点。Borji等人[89]用进化算法在一个基本的显著模型参数空间中搜索来寻找目标。Elazary和Itti[90]提出了一个模型，该模型中top-down注意力能调整首选特征（比如一个特定的灰度）和调整特征检测器的宽度，从而给出相比调节固定特征检测器的增益模型而言很灵活的top-down调整模型。最后但是并不是不重要的研究包括[147][215][141]，他们都是从制定目标物体搜索的方法出发提出一个显著性度量方法。

　　前面提到的关于在视觉搜索中物体特征的角色的研究与计算机视觉中的物体检测非常相近。一些物体检测方法（比如Deformable Part Model by Felzenszwalb等人[206]和the Attentional Cascade of Viola and Jones[220]）对于一些物体，如小汽车，人以及人脸有很高的检测率。与认知模型相比，这类方法通常是纯计算方法。关于这两个领域如何相关的研究将可能对双方领域都带来好处。

　　2）场景内容。当简要的展示一副图时（小于或等于80毫秒），一个观察者通常能够描述场景的核心特征[176][71]。这是一个非常粗糙的场景表示，通常叫做“主旨gist”，不包含单个物体更多的细节信息，但是能够提供足够的粗糙场景区分信息（比如室内场景和室外场景）。意识到这点很重要：gist并不显示场景的语义类别。Chun and Jiang[91]证明了那些位于相对一些背景重复出现的结构中的物体能够很快的被检测到[71]。在特定场景中物体间的语义关联（比如电脑通常在桌子上）或者内容信息同样在指引眼球运动中起着重要的角色[199][84]。

　　已经存在一些关于利用不同类型的底层特征的gist模型。Olive and Torralba[93]在图像上计算非重叠窗函数傅里叶变换的幅频。他们接着利用主成分分析（PCA）和独立成分分析（ICA）来降低特征的维度。Renninger and Malik[94]对输入图像利用Gabor滤波器过滤，利用K-means聚类算法从训练库上提取100个普遍的taxtons。他们的gist特征是这些普遍taxtons上的直方图。Siagian and Itti[95]用生物学的中心-周围区域对比，在方向，颜色和灰度通道特征上对gist建模。Torralba[92]用小波分解调节6个方向和4个尺度。为了提取gist，通过在4*4方上的录波器响应求平均值形成向量。同样，他利用PCA，将384维向量降至80维gist向量。对于gist的比较，请参考[96][95]。

　　Gist的表达方式逐渐在计算机视觉领域内边的流行起来，因为他们提供了丰富的全局区分信息，对很多应用非常有帮助，比如当今大规模场景数据库上的搜索[116]，将搜索缩小到包含感兴趣物体的区域[92][87]，场景实现[205]，和top-down模型建模[101][218]。因此可以看出这个方向的研究具有很大的潜力。

　　3）任务需求。任务对于注意力的部署具有很大的影响[79]。据说视觉场景可以解释为基于需求的方式执行需求的任务[97]。Hayhoe等人[99]指出当处理复杂任务时视觉感知和眼球运动之间存在着很强的联系。测试者执行视觉导向的任务时，通常发现他们将更多的注视点导向那些与任务有关的位置[99]。通常有可能推断出一个方法，测试员在内心中记住眼球运动的模式。比如说在“block-copying”任务中，测试员需要重现每个积木的组装方式，测试者完成任务的方式就显示了眼球运动的模式【注：这段没太懂原文的意思】。测试员首先选择目标积木来在模型中确定其位置，然后关注工作区域的积木来在对应位置上放置新的积木[216]。其它研究探讨了在自然场景中gaze基于任务的行为，比如三明治制作，驾驶汽车，板球运动，和行走（见Henderson and Hollingworth[177]，Rensink[178]，Land and Hayhoe[135]， and Bailensen and Yee[179]）的高层因素。Sodhi等人[180]研究了在驾驶中的一些分心行为，比如调节音频音量或者接电话，对眼睛运动的影响。

　　流行的观点是bottom-up和top-down注意力组合影响着注意力行为。一个组合方法应该能够解释何时以及如何趋向一个top-down视觉物体，或者跳过它，由于底层显著因素。最近，[13]提出了一个Bayesian方法解释了对于top-down注意力因素和对比或者方向的bottom-up因素进行最优组合方式。Navalpakkam和Itti[80]提出了一个任务驱动认知模型，包含这样的假设：用于解决任务的方向以及存在了。Peters和Itti[101]在游戏视频中学习了一个从场景的gist投眼睛的注视点的top-down映射。组合方式就是简单的BU和TD模块的相乘。

2.2 空间VS时空模型

　　在实际世界中，我们面临的视觉信息会发生持续不断的变化，由于自我中心或者外边世界的动态变化。视觉选择这时同时依赖当前的场景显著性和以前时间的累积知识。因此，一个注意力模型应该能够捕捉到那些在时空方式中重要的场景区域。

　　在第三章中将有更详细的阐述，几乎所有的模型都包含了一个空域模块。我们能够从两种类型的对时域信息进行建模的saliency模型：1）一些bottom-up模型用运动通道来捕捉吸引到移动激励的视觉注意力点[119]。最近，一些研究者开始进行时域对bottom-up的影响进行建模[143][104][105]。2）另一方面，一些模型[109][218][26][25][102]试图捕捉任务的时空方面的信息，比如通过学习注意物体的序列或者任务过程中的行动序列。比如，注意力门模型Attention Gate Model（AGM）[183]重点强调了注意力的时间相应性质和量化描述了人类往往注意的序列激励目标。图像的先前信息，注视点，注视点的图像内容信息，物理行为，以及其他传感器的激励（比如音频）用来预测眼球的下一运动点。加入时间维度，以及自然交互行为的现实性带来了一系列的在利用计算模型预测注意点的应用。

　　用来建立视觉注意的时间方面的合适的环境是动态的，具有交互步骤的电影和游戏。Boiman and Irani[122]提出了用于从视频中进行不规则检测算法，在一个学习的不规则行为的数据库上通过比较小块的纹理实现。时间信息在激励层面上是非常有限的，并且不包含高级认知功能，比如展示给注意力焦点的物品的序列，或者玩游戏是动作的序列。一些模型提取静态和动态显著图，并提出算法来融合他们（比如Jia Li等人[133]以及Marat等人[49]）。在[103]中，提出一个基于视频时空注意力模型，通过组合两幅图像之间的差异的运动对比和从颜色直方图中计算出来的时间对比。视觉实现环境VR也被使用[99][109][97]。一些其他处理时间维的模型是[105][108][103]。我们将在后面介绍这些模型。

　　因素f3显示了一个模型是否仅仅用到时域信息或者利用时空信息估计显著性。

2.3显式注意和隐式注意

　　基于显式的注意和隐式的注意是不同的。显示注意力是将视网膜导向激励的过程，而隐式注意力心理上注意一些可能的输入激励。隐式注意力的一个例子是，当一个人在说话时，他的视网膜周围区域也是关注着整个视觉区域。另一个例子是在开车中，司机在关注马路的同时，下意识地关注着路标和红绿灯的状态。当前的观点是隐式注意是一种用来快速扫描感兴趣区域。这种隐式转换与眼球运动回路有关，这种回路建立感兴趣区域的一个扫描回路[203]。然而，这也不能完全解释隐式注意和显示注意的复杂的交互关系。比如，有可能注意到右手边的角的视野，而同时积极的抑制眼球移动到那个位置。很多模型检查了那些吸引眼球的区域，但是很少能解释伴随着头的运动的眼睛的显示取向。缺少对显式注意计算框架的原因可能是显式注意的行为机制和功能依然是未知的。并且，我们不知道如何去度量显式注意。

　　由于显式注意和隐式注意的大量的重叠和他们也不是相互排斥的概念，显著模型能够考虑同时对显式机制和隐式机制进行建模。然而，对这个主题的深入探讨超出了本文的范围，也需要在其他地方做特殊的处理。

2.4 基于空间模型VS基于物体模型

　　对于注意力尺度的单元没有统一的认识：我们注意的是空间位置、是特征、还是物体？大量的心理学和神经生理学研究都是基于空间的注意力模型（比如Posner's spatial cueing paradigm[98][111]）。同时也有大量的证据支持基于特征的注意力模型（在一个特征维度里检测就的东西[81]或者特征选择神经元的曲率调节[7]）和基于物体的模型（选择性地注意到两个物体中的一个，比如人脸和花瓶的错觉图[112][113][84]）。当前的观点认为这些理论并不相互排斥，视觉注意力能够分布到每个候选的单元点上，同时也暗示着没有单一的注意单元。人类有能力同时注意到多个感兴趣的区域[114][115]。

　　在现有的模型中，大多数模型都是基于空间的（见图7）。也可以认为人类以物体作为top-down注意的基本工作和推理单元[84]（与纯像素值相比）。先前提出一些基于物体的模型，但他们没有对于眼睛注意力的解释（比如，Sun and Fisher[117]，Borji等人[88]）。这个缺点使得验证模型变得困难。比如，Sun and Fisher[117]模型的缺点是用人对图像进行分割，他引入了那些在前注意阶段（在物体被认知的阶段之前）并不存在的信息。现有的带有物体标签的图像和视频库（比如 LabelMe Image and Video[116][188]）能够在这个方向做有效的研究。基于物体和基于空间模型之间的关系有待将来解决。基于特征的模型（比如[51][83]）调整特征探测器的属性，试图使在分散的背景中令物体变得更加显著。由于物体和视觉特征的紧密关系，本文将基于特征的模型归类到基于物体的模型，见图7.

　　第九个特征f9表示一个模型是否是基于空间的或者基于物体的，意味着他在物体上进行计算而不是单纯的像素值。

2.5 特征

　　传统上，根据特征组合理论(FIT)和行为研究[81][82][118]，三个特征用于计算注意力的框架模型：亮度（或者亮度对比），颜色和方向。亮度同时是三个颜色通道的平均值（比如[14][117]，然后通过受LGN和V1皮层内神经元响应启发的中心-周围对比处理。颜色受V1皮层内对比颜色神经元的启发，提取红绿和蓝黄通道。颜色同样也可以用其他空间，比如HSV[50]或Lab[160]。方向则通常利用方向Gabor滤波器处理。运动信息第一次在[119]中被使用，对图像使用定向模板（在大脑运动区域，主要包括MT和MST区域，主要感知运动方向）。一些研究同样加入一些特定的feature来引导注意力，比如皮肤色调[120]，人脸[167]，水平线[93]，小波[133]，gist[92][93]，中心偏执[123]，曲率[124]，空间分辨率[125]，光流[15][126]，flicker[119]，多重叠取向（交叉或角落）[127]，墒[129]，ellipses[128]，对称性[136]，纹理对比[131]，above average saliency[131]，深度[130]和局部中心-周围对比[189]。尽管很多模型使用有FIT[81]提出的特征，其他模型提出了一些其他特征，比如高斯差分（DOG）[144][141]和利用ICA和PCA方法从自然场景中提取的特征[92][142]。对于目标搜索，一些模型使用到了对于物体结构的描述子，比如局部方向直方图[87][199]。详细的关于视觉搜索和注意力导向的重要特征的描述，参考[118][81][82]。因素f10，基于模型使用的特征进行分类。

2.6激励和任务类型

　　视觉激励首先可以被分成静态（比如search arrays，静态图，因素f4）或动态（比如视频，游戏，因素f5）。视频游戏是互动的，并且高度动态的，因此很难保证每次运行时都有相同的自然顺序，尽管他们落后于自然统计，也不是具有相同的噪声分布。这个机制更加复杂，更自相矛盾，计算更复杂。他们同时包含了大量的认知行为。

　　第二个区分在于人工合成激励（Gabor录波器块，search arrays，漫画，虚拟环境，游戏，因素f6）和自然激励（图片，自然场景的视频，因素f7）。由于人们生活在动态的世界中，视频和交互场景提供了，相比静态图片，一个更具有说服力的面对视觉系统的任务表达方式。另外一个研究注意力行为的领域的研究-虚拟现实场景代理-在Sprague and Ballard[109]的工作中体现。他们在VR中利用真实的human agent，并使用增强学习（RL）在导航任务中来协调行为选择和视觉感知，比如壁障，保持侧向行走和收集垃圾。

　　因素f8区分任务类型。三个主要的用来研究注意力模型的任务包括：（1）无约束观察任务，测试员自由的观察激励（没有任何任务或者问题，但是包含了内在的认知任务），（2）视觉搜索任务，观测员被要求在自然场景中寻找旧的东西或者一个特定的物体，（3）交互任务。在很多现实条件下，像驾驶和踢足球这样的任务engage subjects tremendously。这些复杂的任务通常包括很多子任务，比如视觉搜索，物体跟踪和聚焦和分散注意力。

2.7 衡量准则

　　我们有个模型产出一个显著图S，我们必须通过与眼动数据G相比较来量化衡量。我们如何比较他们？我们把这些图想象成概率分布，利用Kullback-Leibler(KL)或Percentile标准来衡量两个分布之间的距离。更或者我们考虑S是一个二值分类器，利用信号检测理论分析（ROC曲线下的面积AUC标准）评估这个分类器的性能。我们还能将S和G想象成随机变量，用相关系数（CC）或Normalized Scanpath Saliency(NSS)来衡量他们之间的统计关系。令一个方法是将G看成是眼动点的序列，并与从显著模型中抽取的注视点序列进行比较（编辑距离）。

　　从理论上将，任何模型都能用任何标准进行衡量，在图7中，我们列出因素f12表示每个模型中原作者用什么方式进行衡量。在其中，当我们使用Estimated Saliency Map（ESM S），我们的意思是模型的显著图，我们使用Ground-truth Saliency Map（GSM G），我们的意思是通过收集所有的注意点组合成的图，或者组合所有经过人工标注的显著区域形成的图。

　　从另一个角度讲，注意力模型的衡量准则大体上能够分成三类：1）基于点的；2）基于区域的；3）主观评价。在基于点的评价中，从ESMs中抽取的点与从GSMs中抽取的点相比较。基于区域的评价对衡量注意力很有帮助，在区域显著数据库上通过比较从ESMs上显著区域和人工标注的区域（GSM人工标注）[133]。在[103]中，使用了评估显著图的主观分数，主观分数主要分为三个层次：“Good”，“Acceptable” 和“Field”。这个主观评价的问题在于很难讲起推广到大规模的数据库上。

　　下面我们将集中说明这些与文献中保持一致的评价标准，以及给他人提供参考（Percentile[134]，and Fixation Saliency Method(FS)[131][182]）。

Kullback-Leibler(KL)散度：KL散度通常用来衡量两个分布之间的距离。对于显著图讲，同通常是计算显著图值的分布和人眼随机注视点分布之间的距离[145][77]。令t(i)=1...N 表示N个实验中的注视点。对于显著模型，ESM在人类注视点x(i,human)和随机点x(i,random)上进行采样。在这些采样点上，显著值归一化到[0,1]之间，然后计算直方图。Hk和Rk分别表示第k个bin里的点的个数。最后KL的计算【参加原文公式1】。具有很高KL值的模型能更好的预测人类注视点的位置，因为观测者通常注视具有很大响应的小部分区域，而忽略具有很小响应的大部分区域。相对于其他评分策略[212][131]KL散度的优点在于：1）其他衡量准则往往计算Hk相对于Rk的右移值，而KL对两个直方图的任何不同都很敏感；2）KL对S的再参数化（比如S的平方，开方以及其他）具有不变性。但是KL的一个缺点是它没有明确的上界，如果两个直方图完全不同，则他们的KL散度将趋向无穷。

曲线形的面积(AUC)：AUC是曲线ROC[195]下的面积。最为最流行的衡量准则，ROC用来衡量具有变量阈值的二值分类器的性能（通常用来在两种方法之间分类，像saliency VS random）。用这种方法，模型的ESM被看作是在图像每个像素点上的一个二值分类器。显著值在阈值之上的点看作是注视点，而在阈值之下的看作是非注视点[144][167]。人注视点看作是ground-truth。通过改变这个阈值，ROC曲线可以在false positive rate和true positive rate坐标上绘制出来。这个曲线下的面试显示了模型预测人眼注视点的能力大小。最理想的预测对应的score是1.这个准则具有平移不变形的优良特征，对于任何作用在saliency值上的单调递增函数，这个曲线下的面积保持不变。如何ROC的计算参考文献[192]。

线性相关系数(CC)：这个衡量通常被用在比较两幅图的关系，比如图像校准，物体识别以及不等性衡量[196][197]。线性相关系数衡量两个变量的线性关系【见原文的公式2】。CC的一个有趣的优点是在单一尺度[-1 +1]下比较两个变量。当CC值接近+1/-1时，两个变量之间具有完美的线性关系。

字符串的编辑距离：为了使用这个衡量准则在显著模型产生的感兴趣区域和人眼注视点产生的感兴趣区域之间做比较，显著图和眼运动图首选要聚类成一些区域。这些感兴趣区域ROI用saliency值或者人眼注视值进行排序。结果是排好的字符串形式，像stringA=”abcfeffgdc”和StringB=“afbffdcdf”。编辑相似性距离被定义为：基于三种基本运算（删除，插入以及替换）的最佳方法。【参考其他书籍对编辑距离的阐述】参考[198][127]。对于这个范围的阐述见[127]。

2.8 数据库

　　已经有一些在静态图像中眼动数据库（研究静态显著性）和视频（用来研究动态显著性）。在图7中，我们列出因素f13来显示使用的数据库。这里，我们仅仅提及那些主要用来衡量和比较模型的数据库，尽管还有其他工作收集了一些特定目的的数据库（比如：驾驶，三明治制作以及block copying[135]）。

　　图4和图5总结了图像和视频的眼动数据库。研究者同样适用鼠标滑动来跟踪注视点。尽管这些数据含有噪声，一些前期的结果表现出合理的较好的ground-truth估计。比如，Scheier and Egner[61]表明鼠标滑动模式与眼动跟踪非常相近。基于网页的鼠标跟踪系统有TCTS实验室开发出来[110]。其他有潜力的数据库（不是眼动数据库）是手动标注的库，如PASCAL和Video LabelMe。一些工作用到了这类数据[116]。

3. 注意力模型

　　以下部分是对不同模型的称述和总结。本文不做翻译。具体请参考原文。

　　本文最重要的一副图在原文的图7.这里列出来以供参考。

从参考文献看，本文所引用的文献都是2011年及以前的文章。

在所有的参考文献中，有Itti署名的参考文献有19篇。

下面就本文引用的重要的论文的文章列出如下（以引用顺序排序）：

[14] L. Itti, C. Koch, and E. Niebur, “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,” IEEE Transactions on PAMI, vol. 20, no. 11, pp. 1254-1259, 1998。

[20] J. Najemnik and W.S. Geisler, “Optimal Eye Movement Strategies in Visual Search,” Nature, no. 434, pp. 387-391, 2005.

[41] O. Le Meur, P. Le Callet, D. Barba, and D. Thoreau, “A Coherent Computational Approach to Model Bottom-Up Visual Attention,” IEEE PAMI, vol. 28, no. 5, pp. 802-817, 2006.

[64] G. Heidemann, ”Focus-of-attention from Local Color Symmetries,“IEEE Trans PAMI, vol. 26, no. 7, pp. 817-830, 2004.

[95] C. Siagian and L. Itti, “Rapid Biologically-Inspired Scene Classification Using Features Shared with Visual Attention,” IEEE
PAMI, vol. 29, no. 2, pp. 300-312, 2007.

[105] V. Mahadevan and N. Vasconcelos, “Spatiotemporal Saliency in Dynamic Scenes.” IEEE PAMI, vol. 32, no. 1, 2010.

[147] D. Gao, S. Han and N. Vasconcelos, “Discriminant Saliency, the Detection of Suspicious Coincidences, and Applications to Visual Recognition.” IEEE Trans. PAMI. vol. 31, no. 6, 2009.

[153] T. Avraham, M. Lindenbaum, ”Esaliency (Extended Saliency):Meaningful Attention Using Stochastic Image Modeling,“ IEEE PAMI, vol. 32, no. 4, pp. 693-708, 2010.

[192] X. Hou, J. Harel, and Christof Koch, ”Image Signature: Highlighting sparse salient regions,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012.

【本文完】
相关阅读:
设计模式之观察者模式
 设计模式之代理模式
 用Javascript模拟微信飞机大战游戏
 [Leetcode] Remove Duplicates from Sorted List II
[Leetcode] Remove Duplicates from Sorted List
[Leetcode] Remove Duplicates from Sorted Array II
[Leetcode] Palindrome Number
[Leetcode] Decode Ways
[Leetcode] Climbing Stairs
[Leetcode] Maximum Subarray
原文地址：https://www.cnblogs.com/hSheng/p/2803424.html