《数据挖掘：概念与技术》学习笔记1

《数据挖掘：概念与技术》学习笔记1

　　数据挖掘一般跟知识发现紧密相连，学习过程中主要关注数据挖掘技术。

1、数据挖掘就是从数据中采用各种算法提取数据模式的过程。

2、数据挖掘功能：特征化和区分，频繁模式、关联和相关性挖掘，分类与回归，聚类分析以及离群点分析。

一般可用于两种任务：描述性descriptive和预测性predictive。

其中descriptive用来描述数据中的一般性质，而predictive则对数据进行归纳总结以用来预测。

3、特征化是指找出一类集合的共同特点，区分是找出不同集合的区别。

4、频繁模式主要是对数据中频繁出现的项进行挖掘，包含：频繁项集、频繁子序列（序列模式）和频繁子结构。

频繁项集指一起出现的数据项，例如：顾客同时买水和面包；

频繁子序列则是频繁顺序出现的项：买了电脑买软件等；

频繁子结构是出现的数据有多种表现形式，如图、树和前面的项集、序列一起出现。

从这些频繁项中就可以挖掘他们之间的相关性，从而进行分析。

5、classification经过训练得出描述和区分数据的模型从而对新数据进行分类。

常用方法：分类规则、决策树、数学公式、神经网络、朴素贝叶斯分类、SVM以及KNN。

通常有地方把分类叫做逻辑回归。

regression是预测连续值，classification是预测离散值。

在进行classification和regression前要对数据进行相关性分析，对于训练不相关的属性可以不予考虑降低计算量。

6、clustering跟classification的区别在于不需要事先对数据进行标记，可以自动发现存在的类别。

7、离群点分析也叫偏差分析，在欺诈检测中有用，信用卡刷卡信息的检测。一般应用中当作异常值丢弃。

8、所有的挖掘模式都有客观和主观上的评价，满足一定的support和confidence并且能对人们的预测进行证实或者修正现有的理念的模式才能有意义，所以挖掘要有约束。
相关阅读:
AGC012
AGC010
AGC010
AGC010
AGC010
BZOJ2120
python_way,day8 面向对象【多态、成员--字段方法属性、成员修饰符、特殊成员、异常处理、设计模式之单例模式、模块：isinstance、issubclass】
python_way ,day7 面向对象（初级篇）
python_way.day7 模块（configparser，xml，shutil，subprocess）、面向对象（上）（创建类，类的构成，函数式编程与面向对象编程的选择，类的继承）
python_way ,day5 模块，模块3 ，双层装饰器，字符串格式化，生成器，递归，模块倒入，第三方模块倒入，序列化反序列化，日志处理
原文地址：https://www.cnblogs.com/recordstudy/p/6442508.html

热门文章
LOJ6000
洛谷P3381
POJ1459
POJ1149
BZOJ1088
BZOJ2588
BZOJ3223/洛谷P3391
BZOJ3224/洛谷P3391
BZOJ1112
BZOJ1047