《数据挖掘导论》读书笔记（一）—— 绪论

《数据挖掘导论》读书笔记（一）—— 绪论
书名：数据挖掘导论(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民邮电出版社
译者: 范明 / 范宏建
出版年: 2010-12-10
ISBN: 9787115241009

第1章绪论

什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

数据挖掘要解决的问题

传统数据分析技术遇到的实际问题：
可伸缩：需要处理海量数据，算法必须是可伸缩的(scalable)，可能需要新的数据结构等。
高维性：需要处理高维数据，某些数据分析算法，随着维度的增加，计算复杂度迅速增加。
异种数据和复杂数据：需要处理异种和复杂数据，如半结构化数据，传统的数据分析方法只能处理包含相同类型属性的数据集。
数据的所有权与分布：需要处理的数据不一定存放在同一个站点或归属同一个机构，这就需要开发分布式数据挖掘技术。
非传统的分析：传统的统计方法基于一种假设-检验模式，即提出假设，设计实验，分析数据，费力劳神。

数据挖掘与其他学科

数据挖掘利用了如下一些领域的思想：
- 来自统计学的抽样、估计和假设检验；
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论；
- 以及最优化、进化计算、信息论、信号处理、可视化和信息检索等其他领域；
- 数据库系统提供有效的存储、索引和查询处理；
- 高性能并行计算和分布式技术处理海量数据集。
数据挖掘的任务
- 预测任务
  根据其他属性的值，预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable)，而用来做预测的属性被称为解释变量(explanatory variable)或自变量(independent variable)。
- 描述任务
  其目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹、异常）。本质上，描述性任务通常是探索性的，并且常常需要后续处理技术验证和解释。
本书涉及的主题
- 预测建模(predictive modeling)
  以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类(classification)，用于预测离散的目标变量；回归(regression)，用于预测连续的目标变量。预测建模可用来确定顾客对产品促销活动的反应，预测地球生态系统的扰动。
- 关联分析(association analysis)
  用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式。关联分析可用来找出具有相关功能的基因组，理解地球气候系统不同元素之间的联系。
- 聚类分析(cluster analysis)
  旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能相似。聚类分析可用来对顾客进行分组，找出显著影响地球气候的海洋区域。
- 异常检测(anomaly detection)
  识别其特征显著不同于其他数据的观测值，这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测课用来检测欺诈行为，判断生态系统扰动。
相关阅读:
Nginx log日志参数详解
 sea.js模块加载工具
 sea.js模块加载工具
 Airbnb React/JSX 编码规范
 4.2 react patterns(转)
4.1 react 代码规范
 3.5 compose redux sages
3.3 理解 Redux 中间件(转)
3.4 redux 异步
 3.1 开始使用 redux
原文地址：https://www.cnblogs.com/husterzxh/p/9917218.html

《数据挖掘导论》读书笔记（一）—— 绪论

第1章 绪论

什么是数据挖掘

数据挖掘要解决的问题

数据挖掘与其他学科

数据挖掘的任务

本书涉及的主题

第1章绪论