1.什么是数据分析与数据挖掘技术?
所谓数据分析,即对已知的数据进行分析,然后提出一些有价值的信息。比如统计出平均数、标准差等信息,数据分析的数据量有可能不会太大。而数据挖掘,是指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等,比如从网站的用户或用户行为数据中挖掘出潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。
2.数据分析与挖掘技术能做什么事情?
数据挖掘技术能够帮助我们更好的发现事物之间的规律。所以,我们可以利用数据挖掘技术实现数据规律的探索,比如发现窃电用户、发觉用户潜在需求、实现信息的个性化推送、发现疾病与症状甚至疾病与药物之间的规律...等。
3.数据挖掘的流程:
1.定义数据挖掘目标
对我们要解决的问题定义一个目标,也就是我们的数据挖掘要解决一个怎样的问题。
2.获取数据
常用的手段有通过爬虫采集或者下载一些统计网站发布的数据。
3.数据探索
收集到初步的样本数据集后,接下来要考虑的问题是:
(1) 样本数据集的数量和质量能够满足模型构建的需求?
(2) 是否出现从未预料的数据状态?
(3) 其中有没有明显的规律和趋势?
(4) 各因素之间有什么样的关联性?
通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。
数据探索有助于选择合适的预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。
4.数据预处理
因为我们获取的数据并不一定是干净的,可能会存在一些污染、缺失等问题,在数据预处理中就需要对数据进行清洗、集中、规范化、精简,使得这些数据能够适合我们做数据建模。
5.数据建模
数据建模比较常用的四类算法:分类算法、聚类算法、关联算法、预测算法。
6.模型评估与发布
最后对模型进行验证,是否可以达到我们设定的数据挖掘目标,如果能够可靠的解决我们的问题,之后可以进行发布。