第二章
21、研究的属性类型
标称属性:值是一些符号或事物的名称,代表某种类型、编码或状态
二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性
序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的
数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)
22、数据散布常见的度量量(数据如何分散的方法/识别离群点)
极差 四分位数、四分位数极差、五数概括图、方差和标准差
23、审视数据的图形
条形、饼图、线图、分位数图、分位数—分位数图、直方图和散点图
24、数据的可视化
1、基于像素的可视化
2、几何投影可视化技术
3、基于图符的可视化技术:(1)切尔诺夫脸 (2)人物线条画
4、层次可视化技术
5、可视化复杂对象和关系
第三章
25、数据质量涉及的因素:
1、准确性、完整性、一致性、时效性、可信性和可解释性
26、数据预处理的主要任务:
1、数据清理 2、数据集成 3、数据规约 4、数据转换
27、处理缺失值得方法:
1、忽略元组 2、人工填写缺失值 3、使用一个全局常量填充缺失值
4、使用属性的中心(如均值或中位数)填充缺失值
5、使用与给定元组属同一类的所有样本的属性均值或中位数
6、使用最可能的值填充缺失值
28、光滑数据,去掉噪声(也用于数据离散化和数据规约)
1、分箱:通过考察数据的“邻近”来光滑有序数据值
2、回归:用一个拟合函数来光滑数据
3、离群点分析:通过如聚类来检测离群点
29、数据清理过程
1、第一步偏差检测
2、偏差检测和数据变换(纠正偏差)的两步迭代执行
3、新的数据清理方法加强交互性
4、开发数据变换操作的规范说明语言
30、数据归约策略(可以用来得到数据集的归约表示,但仍接近于保持原始数据的完整性)
1、维归约:减少所考虑的随机变量或属性个数
2、数量归约:用替代的、较小的数据形式替换原数据
3、数据压缩:使用变换,以得到原数据的归约或“压缩”表示
31、离散小波变换(DWT)与离散傅里叶变换有密切关系
DFT是一种涉及正弦和余弦的信号处理技术。然而,一般地说,DWT是一种更好的有损压缩,对于给定的向量,如果DWT与DFT保留相同数目的系数,则SWT将提供原数据更准确的近似。因此对于相同的近似,SWT需要的空间比DFT小。与DFT不同,小波空间局部性相当好,有助于保留局部细节。
32、离散小波变换过程
1、输入数据向量的长度必须是2的整数幂
2、每个变换涉及应用两个函数
3、两个函数作用于X中的数据点对
4、两个函数递归地作用于前面循环得到的数据集,直到得到的结果数据集的长度为2
5、由以上迭代得到的数据集中选择的值被指定为数据变换的小波系数
33、主成分分析的基本过程
1、对输入数据规范化,使得每个属性都落入相同的区间。
2、PCA计算k个标准正交向量,作为规范化输数据的基
3、对主成分按“重要性”或强度降序排序
4、既然主成分根据“重要性”降序排序,因此可以通过去掉较弱的成分来归约数据
34、属性子集选择定义、目标、优点
定义:通过删除不相关或冗余的属性(或维)减少数据量。
目标:找出最小属性集
优点:减少了出现在发现模式上的属性数目,使得模式更易于理解
35、属性子集选择的基本启发式方法包括的技术
1、逐步向前选择 2、逐步向后选择
3、逐步向前选择和逐步向后删除的组合 4、决策树归纳
36、数据变换以及策略
数据变换:数据被变换或统一成适合于挖掘的形式
策略: 1、光滑 2、属性构造 3、聚集 4、规范化 5、离散化
6、有标称数据产生概念分层
37、数据的离散化方法
1、通过分箱离散化 2、通过直方图离散化 3、通过聚类、决策树和相关分析离散化
38、四种标称数据概念分层产生方法
1、由用户或专家在模式级显示地说明属性的部分序
2、通过显示数据分组说明分层结构的一部分
3、说明属性集但不说明他们的偏序
4、只说明部分属性集