书名:数据挖掘导论(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民邮电出版社
译者: 范明 / 范宏建
出版年: 2010-12-10
ISBN: 9787115241009
第1章 绪论
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。
数据挖掘要解决的问题
传统数据分析技术遇到的实际问题:
可伸缩:需要处理海量数据,算法必须是可伸缩的(scalable),可能需要新的数据结构等。
高维性:需要处理高维数据,某些数据分析算法,随着维度的增加,计算复杂度迅速增加。
异种数据和复杂数据:需要处理异种和复杂数据,如半结构化数据,传统的数据分析方法只能处理包含相同类型属性的数据集。
数据的所有权与分布:需要处理的数据不一定存放在同一个站点或归属同一个机构,这就需要开发分布式数据挖掘技术。
非传统的分析:传统的统计方法基于一种假设-检验模式,即提出假设,设计实验,分析数据,费力劳神。
数据挖掘与其他学科
数据挖掘利用了如下一些领域的思想:
- 来自统计学的抽样、估计和假设检验;
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
- 以及最优化、进化计算、信息论、信号处理、可视化和信息检索等其他领域;
- 数据库系统提供有效的存储、索引和查询处理;
- 高性能并行计算和分布式技术处理海量数据集。
数据挖掘的任务
- 预测任务
根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性被称为解释变量(explanatory variable)或自变量(independent variable)。 - 描述任务
其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹、异常)。本质上,描述性任务通常是探索性的,并且常常需要后续处理技术验证和解释。
本书涉及的主题
- 预测建模(predictive modeling)
以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。预测建模可用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动。 - 关联分析(association analysis)
用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析可用来找出具有相关功能的基因组,理解地球气候系统不同元素之间的联系。 - 聚类分析(cluster analysis)
旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。聚类分析可用来对顾客进行分组,找出显著影响地球气候的海洋区域。 - 异常检测(anomaly detection)
识别其特征显著不同于其他数据的观测值,这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测课用来检测欺诈行为,判断生态系统扰动。