时间序列异常检测基础研究
随着时间序列数据越来越频繁的被使用,异常数据在时间序列中的价值被发
掘和利用,越来越多的人们将目光投入到时间序列异常检测领域,并且提出了很多
时间序列异常检测技术,这些技术的提出大大促进了时间序列异常检测领域的发
展,对于后面学者进行时间序列数据挖掘有着重要的参考价值。
上一章介绍了时间序列数据的来源,时间序列数据挖掘的起源还有发展过程,
并且描述了时间序列异常检测领域的一些知识,本章介绍一些常用的时间序列异
常检测技术,并且介绍各个算法的优缺点,以及各自适用的数据和场景,通过比较
可以得到一些结论,对于本文提出的时间序列异常检测方案有着重要的帮助。
时间序列异常检测数据
数据挖掘是从大量的数据中挖掘出有价值的、深层次的的知识的过程,大部分
的数据挖掘工作的研究重点都是为了发现那些数据中频繁出现的模式或者由此总
结出某种规律,比如周期、关联关系等等,但是在某些场景中,非频繁出现的模式
或者说异常的模式往往具有更大的价值,能带来更有启发的知识。比如网络入侵检
测、电子交易欺诈检测、可疑活动的监控等等。这样的数据挖掘工作开启了一个新
的研究领域,就是异常检测,异常检测作为数据挖掘的一个分支,正在受到越来越
多的关注和研究,在数据挖掘领域的异常检测通常可以分为五类:基于聚类的方法
[19]、基于距离的方法[20]、基于密度的方法[21-23]、基于分布的方法[24]等,基于分布
的方法是由统计学领域发展起来的,假设数据集是服从一定的分布的,这样对于数
据集的每个对象作回归分析,然后判断其是否是异常。基于聚类和分类的算法可以
针对高维的数据,可以利用现有的成果,但是因为其没有对异常检测作一些改进,
所以效果并不是那么好,而且往往效率也不高。
对于时间序列而言,其有着一个重要的属性就是时间属性,其序列的每个数据
点之间存在严格的时间顺序,并且间隔是固定的,所以对于这种数据进行的异常检
测往往有着特定的技巧。针对其的异常定义也与普通数据挖掘领域中的异常不尽
相同。大部分人认为时间序列中的异常有着点异常、序列异常、模式异常。同时对
于时间序列的异常检测也面临了一些挑战,包括对于异常的定义的模糊,使得要检
测的内容并不清楚,而且时间序列中距离的定义是一种很重要的部分,但是不同的
距离的定义对于时间序列的异常检测产生的影响很大,而且很多常见的距离度量
算法比如欧几里得距离在时间序列的各个子序列之间进行距离度量时是不适用的,