参考:《数据挖掘导论》,《Introduction to Data Mining》
数据预处理的内容包括:
(1)聚类
(2)抽样
(3)维归约
(4)特征子集选择
(5)特征创建
(6)离散化和二元化
(7)变量变换
每个项目分为两种方式:
-
选择分析所需要的数据对象和属性;
-
创建/改变属性;
2.3.1 聚集
定义:聚集是将两个或多个对象合并成单个对象。
从维度上讲,聚集就是删除属性的过程(属性规约),或者是压缩特定属性不同值个数的过程(样本规约)。
通过聚集,使得数据量更少,但是不影响整体数据的联系。相对单个数据对象,统计量(如平均值、总数)具有较小的变异型
2.3.2 抽样
定义:抽样是一种选择数据对象子集进行分析的常用方法。用于数据的事先调查和最终的数据分析。
有效抽样原理:
-
如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。
-
而样本是有代表性的前提,是它近似于具有与原数据集相同的(感兴趣的)性质。如果数据对象的均值是感兴趣的性质,而样本具有近三十余原数据集的均值,则样本就是有代表性的。
-
由于抽样是一个统计过程,特定样本的代表性是变化的,因此我们所能做的最好的抽样方案就是一个确保以很高的概率得到有代表性的样本。
(1)抽样方法
简单随机抽样——选取特定项的概率相等。
a.无放回抽样:每个选中项立即从构成总体的所有对象集中删除;
b.有放回抽样:对象被选中时补充总体中删除。
分层抽样——提供不同频率的感兴趣的项的抽样方案,解决简单随机抽样不能充分代表不太频繁出现的对象类型。
定义:从预先指定的组开始抽样,使得每个组的大小不同,从每组抽样的对象个数相同。
关注点:
a.抽样与信息损失:一旦确定抽样技术,就需要选择样本容量,而样本容量选择太少,会使得许多结构丢失,因此需要确定适当的样本容量。
b.确定适当的样本容量:随着样本容量的增加,预测模型的准确率会增加,最终趋于稳定。
(2)渐进抽样
合适的样本容量很难确定,需要使用自适应或渐进抽样方法。这种方法需要评估样本,一般使用准确率的评估方法。
通过掌握预测模型准确率随样本逐渐增大的变化情况,并通过选取接近于当前容量的其他技术,我们可以估计出与稳定点的接近程度,从而停止抽样。
2.3.3 维归约
定义:通过创建新属性,将一些旧属性合并在一切其来降低数据集的维度。通过选择旧属性的子集得到新属性,这种维归约称为特征子集选择,又称为特征选择。
作用:
-
维归约删除不相关的特征并降低噪声;
-
消除维灾难;
-
维归约可以使模型更容易理解(因为模型可能只涉及较少的属性);
-
维归约可以更容易让数据可视化。
(1)维灾难
定义:随着数据维度的增加,数据在它所占据的空间中越来越稀疏,使得数据分析变得困难。对于分类,可能在造成没有足够的数据对象创建模型,将所有可能的对象可靠地指派到一个类,并使得分类准确率下降;对于聚类,点子集爱你的密度和距离失去了意义,并使得聚类质量下降。
(2)维归约的线性代数技术
定义:通过该相线性代数技术,将数据由高维空间投影到低维空间(连续数据)。包括主成分分析(PCA)和奇异值分解。
主成分分析(Principal Component Analysis,PCA):是一种用于来连续属性的线性代数技术。它找出新的属性,这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差。
奇异值分解(Singular Value Decomposition,SVD):是一种线性代数技术,与PCA有关,也用于维归约。
2.3.4 特征子集选择(特征选择)
定义:通过消除一些不相关的和冗余的属性,选择最佳的特征子集。
特征选择的理想方法是:将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的子集。
(1)三种标准的特征选择方法:
嵌入方法:使用在运行期间,由算法本身决定使用哪些属性和忽略哪些属性。(例如:决策树分类器)
过滤方法:使用在运行前,是一种独立于数据挖掘任务的方法;
包装方法:使用在运行前,将目标数据挖掘算法作为黑盒,枚举多数子集,并通过该黑盒算法选出最佳属性子集。
(2)特征子集选择体系结构
a.子集评估度量;——过滤方法和包装方法唯一不同的地方。
b.控制新的特征子集产生的搜索策略;
c.停止搜索策略;
d.验证过程;
st=>start: Start
op=>operation: Your Operation
cond=>condition: Yes or No?
e=>end
st->op->cond
cond(yes)->e
cond(no)->op
图1 特征子集选择过程流程图
搜索策略:搜索所有可能的特征子集过程(工程优化算法),使得搜索策略的计算花费低,特征子集最优,两者折中平衡。
子集评估:根据已经考虑的子集评价当前的特征子集。
停止搜索策略:迭代次数,子集评估度量时候最优或者超过阈值,是否已得到特定大小的特征子集,大小和评估标准是否同时达到。
验证:两种方法,方法一是将特征子集在数据挖掘算法中的运行结果和全部特征集合的运行结果作比较;方法二是使用不同特征选择算法得到特征子集,然后比较每个特征子集在同一个数据挖掘算法上的运行结果。
(3)特征加权
特征越重要,所赋予的权值越大。这些权值可以通过相关领域知识确定,也可以根据分类模型自动确定。例如,支持向量机赋予每个特征一个权值产生分类模型。