本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样能够在透彻地理解数据挖据的基础的同时,还能够了解更多重要的高级主题。
目录
第1章 绪论
1.1 什么是数据挖掘
1.2 数据挖掘要解决的问题
1.3 数据挖掘的起源
1.4 数据挖掘任务
1.5 本书内容与组织
第2章 数据
2.1 数据类型
2.2 数据质量
2.3 数据预处理
2.4 相似性和相异性的度量
第3章 探索数据
3.1 鸢尾花数据集
3.2 汇总统计
3.3 可视化
3.4 OLAP和多为数据分析
第4章 分类:基本概念、决策树与模型
4.1 预备知识
4.2 解决分类问题的一般方法
4.3 决策树归纳
4.4 模型的过拟合
4.5 评估分类器的性能
4.6 处理决策树归纳中的过拟合
第5章 分类:其他技术
5.1 基于规则的分类器
5.2 最近邻分类器
5.3 贝叶斯分类器
5.4 人工神经网络
5.5 支持向量机
5.6 组合方法
5.7 不平衡类问题
第6章 关联分析:基本概念和算法
6.1 问题定义
6.2 频繁项集的产生
6.3 规则产生
6.4 频繁项集的紧凑表示
6.5 产生频繁项集的其他方法
6.6 关联模式的评估
6.7 倾斜支持度分布的影响
第7章 关联分析:高级概念
7.1 处理分类属性
7.2 处理连续属性
7.3 处理概念分层
7.4 序列模式
7.5 子图模式
7.6 非频繁模式
第8章 聚类分析:基本概念和算法
8.1 概述
8.2 K均值
8.3 凝聚层次聚类
8.4 DBSCAN
8.5 簇评估
第9章 聚类分析:其他问题与算法
9.1 数据、簇和聚类算法的特性
9.2 基于原型的聚类
9.3 基于密度的聚类
9.4 基于图的聚类
9.5 可伸缩的聚类算法
第10章 异常检测
10.1 预备知识
10.2 统计方法
10.3 基于邻近度的离群点检测
10.4 基于密度的离群点检测
10.4 基于聚类的技术
附录A 线性代数
附录B 维归约
附录C 概率统计
附录D 回归
附录E 优化