1.数据描述:
均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。
2.数据清理:
对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)
a.等宽装箱(distance),等深装箱(frequency)
b.回归
c.聚类
3、数据转换(去量纲)
a.最小值-最大值标准化:
b.Z-score标准化:
c.小数点标准化:
4.数据集成(相关分析、卡方检验)
a.相关性系数:值越大,相关性越大
b.卡方检验:值越大,相关可能性越大
5.数据归约
a.数据放聚集
b.维归约(特征选择):向前逐步选择(每次选最好的属性),向后逐步删除(每次删最差的属性),决策树归纳(由决策树选择属性)。
c.数据压缩(离散小波变换DWT,由平滑和平滑-差数据集重构数据)
*wavelet小波变换:适合高维数据
其中fai(t)是一个小波,等价描述(局部化):
一个单个小波函数fai(t)的平移与伸缩构成一个小波簇:
a为伸缩参数,b为平移参数,称fai(t)为母小波。定义小波变换为:
若满足其L2距离平方和有界,则称fai为基小波。
应用离散小波变换一般使用分层金字塔算法:
a.输入数据响亮的长度L为2的整数幂
b.变换涉及两个函数,第一个函数使数据平滑,第二个进行加权查分产生数据的细节特征
c.两个函数作用输入数据对,产生两个长度为L/2的数据集,分别代表输入数据低频(平滑)和高频内容。
d.两个函数递归地作用于前面循环得到的数据集,指导结果数据集的长度为2
e.由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数
*主成分分析PCA:适合稀疏数据
进行特征值分解,并降序排列,保留特征值较大的特征向量作为主要成分来近似。
5.数值归约
a.回归和对数线性模型近似
b.直方图
c.聚类
d.选样:简单选样(有放回bootstrap/无放回)、聚类选样、分层选样。