浅谈数据挖掘(1)----什么是数据挖掘
一、什么是数据挖掘
1. 要回答什么是数据挖掘,首先要了解数据挖掘的背景。
数据挖掘背景:随着计算机的出现,人类产生和储存的数据量达到一种前所未有的庞大程度。在处理这些庞大的数据时,之前在小规模的数据处理中的方法(比如统计学中的方法)无法进行快速、高效处理,有些时候甚至难以处理出结果。数据挖掘由此应用而生了。
2. 那么如何来定义数据挖掘?
数据挖掘的定义:数据挖掘就是通过对从研究对象中获得的数据集进行一系列处理,从中分析得到用户所想要得到的结果和信息的过程。 数据挖掘是建立在哪些学科上的? 数据挖掘的学科来源:数据挖掘是基于统计学(抽样、估计和假设检验等)和机器学习(人工智能、模式识别)这两个学科,在数据库基础上建立起来的一门应用性学科。(在医学,种植,地质勘测,电力调控,金融预测,警力监控,化工生成等等各种领域都有相应的运用)
3. 数据挖掘的主要任务是什么?
数据挖掘主要的任务有两个方面:
1).描述任务:就是常说的“是什么”的问题。是将数据集中本来反应的研究对象信息和知识用容易让人理解和掌握的形式再现出来。比如分类方法当中的识别问题、聚类分析当中的分类问题。当然并不是说关联分析就不做描述任务,只是说大多数情况下是分类和聚类做描述的情况多。
2).预测任务:就是常说的“会怎样”的问题。这里所说的预测是应用现有的数据集构造一种模型,通过模型的走势和相关性等,预测未来可能出现的情况。比如关联分析当中的时序性分析、分类方法中的回归分析。
数据挖掘还可以从方法角度来体现其任务:
1.分类分析任务;
2.关联分析任务;
3.聚类分析任务;
4.异常检验