17年,18年可以说是大数据概念的全方位爆发元年,全民学习都不夸张。我也在所难免。#数据挖掘属于大数据领域比较广的一个应用,但是之前对它的理解也是很笼统的,平时基本看博客,看咨询学习了解一些数据挖掘知识,但是总觉得很虚,于是想找一本书踏踏实实得系统得了解数据挖掘的概念,应用等等。
这个我会做成一个数据挖掘的读书笔记的系列,不定时更新。
对《数据挖掘概念与技术》这本书进行学习,理解,应用并尽可能转化成自己的知识,读书有人分四个层次,基础阅读,检视阅读,分析阅读,主题阅读。我想尽可能做到第二层以上,有兴趣的朋友可以持续关注,一起学习,有理解的不到位的欢迎指正。那么开始吧
开篇打算写一下数据挖掘的概念以及本书的章节结构,可以对本书的内容有一个大概的了解。
我理解的数据挖掘
什么是数据挖掘:数据中的知识发现(KDD),是自动或方便得提取代表知识的模式。
这是一个多学科的领域,包括 统计学,机器学习,模式识别,数据库技术,信息检索,网络科学,知识库系统,人工智能,高性能计算和数据可视化技术。
这本书的结构顺序按照数据挖掘的技术实现步骤为基线,即数据采集->数据预处理(包括数据清洗)->数据分析建模 ->模型评估。根据这条基线介绍相关的技术方法。
第一章介绍了关于数据挖掘的多学科领域的导论。讨论了导致需要数据挖掘的数据库技术的发展历程和数据挖掘应用的重要性。以及对挖掘的数据类型进行考察,包括关系的,事务的和数据仓库数据以及复杂的数据类型。
第二章:介绍一般的数据特征。首先讨论数据对象和属性类型,然后介绍基本统计数据描述的典型度量以及介绍了一些数据可视化方法。
第三章:数据预处理技术。该章首先介绍了数据质量的概念,然后讨论数据清理,数据集成,数据归纳,数据变换和数据离散化的方法。
第四章:介绍 数据仓库、OLAP(联机处理分析)。介绍数据仓库和OLAP的基本概念,建模,结构,一般实现以及数据仓库和其他数据泛化关系
第五章:对数据立方体进行详细介绍。更深入得考察数据立方体技术,详细得研究数据立方体的计算方法,包括Star-Cubing和高维OLAP方法
第六章和第七章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第六章介绍基本概念。第七章则介高级模式挖掘方法。
第八章和第九章介绍数据分类方法。介绍分类的基本概念和方法,包括决策树归纳,贝叶斯分类和基于规则的分类以及分类的高级方法,包括贝叶斯信念网络,后向传播的神经网络技术,支持向量机,使用频繁模式的分类,K-最邻近分类,基于案例的推理,遗传算法,粗糙集理论和模糊集方法
第十章和第十一章:详细介绍聚类分析。介绍聚类的基本概念和方法,包括基本聚类分析方法的概述,划分方法,层次方法,基于密度的方法和网络的方法。以及介绍聚类分析的高级方法,包括基于概率模型的聚类,聚类高维,聚类图和网络数据,以及基于约束的聚类。
第十二章:专门讨论离群点检测。本章介绍离群点的基本概念和离群点分析,并从各种监督力度(监督,半监督,无监督)以及方法角度(统计学方法,基于邻近性的方法、基于聚类的方法和基于分类的方法)
第十三章:讨论数据挖掘的趋势,应用和研究前沿。
这是本书各章的一个分布结构和基本介绍。如果觉得看完有兴趣可以持续关注本读书笔记系列的更新。会对每一章进行介绍,并把本人的理解和总结一并写出来。打算尽可能结合案例。