数据挖掘学习07 《数据挖掘导论》第二章：数据

数据挖掘学习07 《数据挖掘导论》第二章：数据
本文目的

最近在看《数据挖掘导论》，此书作为此领域的入门书籍，很有口碑。这几天抽业余时间，看了第二章，觉得该记点什么，否则对不起自己。人总在与遗忘作斗争，好记性不如烂笔头。

主要内容

本章节主要讨论了数据处理的4个主要方面：
数据类型

数据质量

数据预处理

相似度测量
数据类型（Type of Data）

定义数据的属性，记录，数据集。

属性的类型分为4种
名称(Noimal)：仅仅只是名称，用来区分不同记录，一一对应，如ID

有序(Ordinal)：可以理解为计算机语言中枚举类型，有序，有限

区间（Interval）：数字区域，主要用于加减运算，如时间，日期

比例（Radio）：计算比例，主要用于乘除运算。

数据集的类型
记录：类似表格，矩阵

图：节点和关联组成的数据，典型的例子是网页和网页中的连接。图论。

时序：按时间排列，带有时间属性的数据集。
数据资粮（Data Quality）

主要介绍了如何度量数据的质量，精度，如何处理错误的数据，异常的数据，不一致的数据等，说的比较笼统，主要还是介绍概念和一些简单的实践方法，如去掉一些不符合要求的数据等等。

数据预处理（Data Preprocess）

这一章介绍了集中常见的数据处理方法，涉及到数理统计与线性代数相关的知识，有些公式和方法需要查阅相关书籍，才能明白，本书也只是提到了使用场景，没有讨论推导过程。主要预处理的技术有如下：
聚合（Aggregation）:将分散的数据聚合成一起，减少数据量，如统计商品的销售额，可以讲流水中每一笔的销售情况按照天，月的方式合并起来，这样可以大大介绍数据量。

采样（Sampling）:统计学得方法，采样的最大好处是可以大大减少数据集大小，但是关键点是如何以最小的样本数来获得最具代表的样本集。一般方法有随机采样，或根据权重采样。

降维（Dimensionaity Reducetion）:线性代数的方法--PCA（主成分分析）和SVD（奇异值分解）

选取子属性集（Feature Subset Selection）：选取问题最相关的属性，去掉无用属性，如ID

创造属性：傅里叶分析

离散化和二进制化：运用熵，离散化连续的值

变量转换：函数，规范化，标准化
相似性测量

个人认为本节是本章中最实用的一章，因为后续的很多章节的分析都是基于数据间的相似度来进行的，比如聚类分析。

欧式距离：集合距离的n维向量空间的扩展

Minkowski Distance：距离的范式表示

Jaccrd 距离：用于计算稀疏的0-1向量之间的距离

余弦定理：用于计算稀疏的非0-1i向量的距离，如果向量的莫需要考虑，那么可以采用欧式距离。0元素对相似性不做贡献

相关系数（Pearson系数）：计算两个向量的相关性，可以用非稀疏举证，0元素对相似性做出贡献

相似度可以放到一些单调递减的函数，用来度量相异性。

比如，上述方法用于统一余弦值和欧式距离。余弦值越大，越相似。但是欧式距离越大，越相异。所以可以任选一个，通过一个简单的单调递减函数来转换，使两者的值表述一致（要么越大越相似，要么越小越相似），这样就可以原封不动的运用的同一个算法中，比如作为hierarchical cluster中的距离公式。

一点思考

上面流水账式的记录了第二章的大概，现在对数据处理已经有了大概的认识。以前虽然灭有明确的这个步骤，但是在一些地方见过。比如weka中有一块专门的地方用于数据预处理。自己在工作中，实现的聚类时，数据初始化时，其实也是在数据与处理，所以实际上本章的内容并不陌生，只是跟全面更广的了解的相关知识。

同时，发现线性代数，数理统计在数据挖掘中的应用还是比较多的，后续要抽点时间捡起相关的知识。

吐槽：好不容易从老婆那里要过来的两个小时的上机时间，终于完成了这篇blog，看来是要买个pad了，一台机器是在hold不住。
声明：如有转载本博文章，请注明出处。您的支持是我的动力！文章部分内容来自互联网，本人不负任何法律责任。
相关阅读:
Git 基础笔记整理1
学习开源中国客户端
 IOS项目中的细节处理，如更改状态栏等等
 网络编程
 当FileWriter没有flush的时候，不写入文件
 批量移动文件
 批量重命名文件
 替换一个文件内的某个字符
 遍历map和删除map中的一个entry
ArrayList的遍历-转载
原文地址：https://www.cnblogs.com/bourneli/p/2752942.html