数据挖掘一般跟知识发现紧密相连,学习过程中主要关注数据挖掘技术。
1、数据挖掘就是从数据中采用各种算法提取数据模式的过程。
2、数据挖掘功能:特征化和区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析以及离群点分析。
一般可用于两种任务:描述性descriptive和预测性predictive。
其中descriptive用来描述数据中的一般性质,而predictive则对数据进行归纳总结以用来预测。
3、特征化是指找出一类集合的共同特点,区分是找出不同集合的区别。
4、频繁模式主要是对数据中频繁出现的项进行挖掘,包含:频繁项集、频繁子序列(序列模式)和频繁子结构。
频繁项集指一起出现的数据项,例如:顾客同时买水和面包;
频繁子序列则是频繁顺序出现的项:买了电脑买软件等;
频繁子结构是出现的数据有多种表现形式,如图、树和前面的项集、序列一起出现。
从这些频繁项中就可以挖掘他们之间的相关性,从而进行分析。
5、classification经过训练得出描述和区分数据的模型从而对新数据进行分类。
常用方法:分类规则、决策树、数学公式、神经网络、朴素贝叶斯分类、SVM以及KNN。
通常有地方把分类叫做逻辑回归。
regression是预测连续值,classification是预测离散值。
在进行classification和regression前要对数据进行相关性分析,对于训练不相关的属性可以不予考虑降低计算量。
6、clustering跟classification的区别在于不需要事先对数据进行标记,可以自动发现存在的类别。
7、离群点分析也叫偏差分析,在欺诈检测中有用,信用卡刷卡信息的检测。一般应用中当作异常值丢弃。
8、所有的挖掘模式都有客观和主观上的评价,满足一定的support和confidence并且能对人们的预测进行证实或者修正现有的理念的模式才能有意义,所以挖掘要有约束。