数据挖掘 第一章 绪论
- 定义
- 过程
- 功能
- 过程模型
- 分类
- 主要问题
1.定义:
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.过程:
(1)数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。
(2)数据准备工作,可分成4个部分: a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。
(3)为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的“训练—验证”协议。有时也称此协议为带指导的学习。验证方法主要分为:
a)简单验证法
b)交叉验证法:首先把原始数据随机平分成两份,然后用一部分做训练集另一部分做测试集计算错误率,做完之后把两部分数据交换再计算一次,得到另一个错误率,最后再用所有的数据建立一个模型,把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。
c)自举法:是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的数据建立。
(4)评价和解释的方法
a) 模型验证。模型建立好之后,必须评价其结果、解释其价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。更重要的是,准确度自身并不一定是选择最好模型的正确评价方法。需要进一步了解错误的类型和由此带来的相关费用的多少。
b)外部验证。无论我们用模拟的方法计算出来的模型的准确率有多高,都不能保证此模型在面对现实世界中真实的数据时能取得好的效果。经验证有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。
3.功能
(1)数据挖掘任务有两类:
第一类是描述性挖掘任务:刻划数据库中数据的一般特性。
第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。
(2)数据特征化 (data characterization) :是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有:饼图、条图、曲线、多维数据立方体、多维表等。
(3)数据区分 (Data discrimination) :是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。
(4)关联分析 (association analysis):发现关联规则,这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。
(5)分类与预测
a)定义
分类 (classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程(注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析)
b)分类模型的导出方式
分类规则(IF-THEN)、决策树、数学公式、神经网络等。
c)相关分析 (relevance analysis)
一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。
(6)聚类分析
a)定义
聚类 (clustering):与分类和预测不同,它主要分析数据对象,而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产生这种标记。
b)聚类或分组的原则
“最大化类内的相似性、最小化类间的相似性”
对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。