什么是眼动追踪?
顾名思义就是追踪眼睛的运动。准确来讲就是通过图像处理技术,定位瞳孔位置,获取瞳孔中心坐标,并通过某种方法,计算人的注视点,让电脑知道你正在看什么。
眼动追踪有什么用?
VR及游戏领域
目前大部分VR设备或者应用需要用户用手进行操作,时间长了以后就会感觉疲劳,而眼睛部分的肌肉对疲劳免疫(因为正常情况下,我们不觉得动一下眼睛是很累的事情),所以通过眼睛来操作VR场景或游戏,可以减缓使用疲劳的问题
另外,通过捕捉用户注视点,对注视点区域进行图像增强,呈现出高质量的图像,而弱化非注视点区域的图像,也就是注视点渲染技术,一方面可以提高数据处理速度,降低VR设备或应用对硬件设备的要求,另一名这种方式更符合人眼的特点,因为我们注视某个点的时候,只有那一个点是最清楚的,而其他地方则是不清楚的,这样通过虚化非注视点的方式会给用户带来更好的体验。
人机交互领域
人机交互(HCI),简单说就是人与机器之前的通信,例如我们通过键盘和鼠标对电脑进行输入,电脑通过屏幕对人进行输出等等。这是最传统的人机交互方式,另外还有语音交互、手势交互等等。而对于电脑来说,它要想理解我们的想法,需要我们主动的对它进行输入,比如输入一个命令,点击一次鼠标,它才能知道我们要干什么。但是如果用眼睛进行交互会是什么样呢?
当我们看一眼电脑时,电脑自动亮屏;当我们想浏览一个网页时,首先看一眼浏览器的图标,然后浏览器打开,再看一眼某个链接,网页便呈现在眼前;当我们需要输入文字时,只要动一动眼睛,看一看键盘,就能进行输入。整个过程完全脱离双手,我们可以用手去干其他的事情。
这些只是交互的一部分,总之用眼睛进行交互,会更方便快捷。
网页布局规划
一个好的网页首先要有一个好的布局,其次在有好的内容,因为就算内容很好,如果去掉css样式,那也是一定很难看下去的。
眼动追踪通过捕捉用户的注视点来分析用户的浏览习惯,并绘制热点图,以此来判断用户喜欢的内容,然后再调整网页布局,将重点放在用户第一眼就能看见的位置。
这里有2种方式:
1.分析用户首次的注释位置,将重要内容(例如新闻、新产品等等)放在用户第一眼能看见的位置。当然这个不用分析也可做到,就是放大字体加粗再突出颜色就好了嘛。
2.网页动态布局。就是根据不同用户的浏览习惯(注释位置)来动态调整网页布局。确保用户第一眼看到的是最重要的。
个性化广告推荐
通过获取用户注视点,为用户推荐相同类型的广告。这个主要可以用在路边的大屏广告,因为用户无法通过点击或者其他方法去表明自己对这个广告感兴趣,广告商也无法知道用户是否对这个广告感兴趣。而用户与广告之间唯一的交互就是通过眼睛注视。所以在大屏广告上装个摄像头来获取用户的注视点,以此来分析某个广告的受欢迎程度。当然这个比较苦难,因为可能距离比较远,还需要一个超高清的摄像头,而且也受其他众多因素影响,实际应用有难度。
医疗领域
主要可以用于两个方面。
1.病情分析
某些病情是需要查看患者眼睛情况的,所以这方面很有应用价值。
2.残疾人控制设备
部分残疾人或者病重的人行动很不方便,所以可以用眼睛代替手去控制某些设备。也很有前景。
安全领域
古有密码解锁,现有指纹、声纹解锁,那也可以用眼睛解锁。当然这个眼睛解锁和虹膜识别不一样,用户可以通过自定义眼球运动状态来代替密码验证。因为是无接触的验证,并且是不可复制的,所以安全性很高。
眼动追踪技术可行性?
可行,因为已经做出来了,后面会有文章详细介绍。
眼球定位比较简单,可以用很多方法进行定位,比如霍夫圆检测啦、阈值分割啦、灰度投影啦、模板匹配啦、神经网络训练啦等等。
比较难的是视线追踪,目前我用的是比较简单的方法,只能将精度控制在100px左右(大概值,当然还与眼睛与摄像头的距离有关)