前言:
由于自己是统计专业的,并且最近做的项目里边涉及到了数据挖掘的知识点,所以就抽出时间来总结一下数据挖掘的知识点,如有不当之处希望各位读者指正。
主要想讲一讲数据挖掘的概念以及关于数据的一些内容,相对来说,理论内容偏多,但加深对这些东西的认识会让你在做数据挖掘时更有目的性。
1.数据挖掘
定义:在大型数据存储库中,自动地发现有用信息的过程。
数据挖掘的一般过程包括以下这几个方面:
-
数据预处理
确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。包括数据清理、数据集成、数据规约和数据变换方法。
-
数据挖掘
通常进行的特征的构造然后放到特定的模型中去计算,利用某种标准去评判不同模型或组合模型的表现,最后确定一个最合适的模型用于我们的后处理
-
后处理
后处理的过程相当于我们已经发现了那个我们想要找到的模式,我们会去应用它或者用合适的方式将其表示出来。
2.数据挖掘的一般过程
3.数据挖掘常见的一些算法
参考链接:https://blog.csdn.net/sinat_22594309/article/details/74923643