数据挖掘主要解决的四类问题以及常用到的算法

数据挖掘主要解决的四类问题以及常用到的算法

1、分类问题：

分类问题属于预测性问题，他和普通预测问题的区别在于预测的结果是类别而不是一个具体的数值。

分类问题可以看成有二分类问题和多分类问题，解决二分类问题（0/1问题）时，遇到其中一类的概率不方便计算时，可以通过计算另一类问题的概率来推测第一类问题的概率。

这里还要弄懂一个训练集和预测集的概念。通常给出的数据分成训练集和测试集，训练集用来建立模型，测试集用来验证模型。

应用：

1、指导市场营销：以前引进的类似产品的数据，哪些消费者决定去买或者不买的决策，这个决策形成了类属性，有关这些消费者的各种人口统计的。生活方式的以及公司关系有关的信息（职业、住址、收入等）

2、探测欺诈：把信用卡交易和持有人的信息作为属性（何时顾客买，买什么，按时付账的频率等），把过去的交易标位欺诈或者公平交易，这形成类的属性，要观测一个账户信用卡交易，利用这个模型来探测欺诈。

3、消费者损耗等：利用过去和现在的顾客的交易的详情记录，发现属性（顾客打电话的频率，在哪里打电话，经济状况，婚姻状况等等），把这个顾客标位重视的或者是不忠实的，找到关于忠实的模型。

决策树、逻辑

回归（Logistics回归）、判别分析、神经网络、Inpurity、Entropy、Chi-square、Gini、Odds、Odds Ratio...

2、聚类问题：

不属于预测性问题，主要解决的是把一群对象划分成若干个组的问题。聚类满足在一个聚类中数据点互相相似或者是在不同聚类中的数据点互相不那么相似。

基于在三维空间中的欧式距离来描述聚类：极小化类内距离，极大化类间距离。

分类问题与聚类问题：分类是预测一个未知类别的用户属于哪一类别；聚类是根据选定的指标，对一群用户进行划分。可以理解为一个类标号未知，一个类标号已知。

应用：

1、市场划分：通过基于顾客地理和生活方式的信息，收集顾客不同的属性，找到类似顾客的聚类，观测同样的聚类和不同的聚类的购买模型来度量聚类的质量。

2、文献聚类：通过识别每个文献中频繁出现的词语。基于不同词语的频率，形成相似性度量，用它聚类。

聚类的方法可以是基于用户彼此之间的距离长度来进行聚类划分。

聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离...

3、关联问题：

定义：已给一个记录集，每个记录包含一定数量的自己给集合的项，产生相倚的规则，由此基于其他项的出现来预测一项的出现。

最经典的“啤酒与尿布”。

一群用户购买了很多产品之后，那些产品同时购买的几率比较高？买A产品的同时买哪个产品的几率比较高？可能由于最初关联分析主要在超市应用比较广泛，所以又叫“购物篮分析”。

序列问题：如果在研究中，一个用户购买的产品假定是同时一次性购买的，分析的重点就是所有用户购买的产品之间关联性里如果假定一个用户购买的产品时间是不同的，而且分析时需要突出时间上的先后关联，如先买了什么，然后买了什么？

应用：

1、市场营销与促销;令发现的规则是{面包圈，......}到{薯片}；薯片为后项，能用来确定如何来促进其销售；面包圈为前项，如果商店停止销售面包圈，什么商品会受影响；面包圈为前项及薯片为后项，能用来看什么产品和面包圈一起卖来促销薯片。

2、超市货架管理：经典的啤酒尿布

3、存货管理：目标: 消费者商品维修公司希望能够预测其消费产品维修的性质，已保持维修车带有合适的零件倚减少前往顾客家里访问的次数。办法: 处理在以前在不同消费者中修理时需要的工具和零件的数据，并发现同时出现的模式。

关联分析的三度：支持度、可信度、提升度

关联规则、apriror算法...

4、预测问题（回归）：

基于其他变量的值来预测一个指定的连续变量的值，假定一个线性或非线性相倚模型

这里的预测问题指的是狭义上的预测，不包括前面的分类问题，一般来说我们谈预测问题主要预测变量的取值为连续数值型的情况，比如天气预报预测明天的气温、国家预测下一年度的GDP增长情况、电信运营商预测下一年的收入、用户数等。

预测问题更多采用统计学的技术。例如回归分析和时间序列分析。

一元线性回归分析、多元线性回归分析、最小二乘法等

应用：

以移动通信行业来说：

分类问题：1、离网预测，预测用户在未来一段时间内离网的风险，2、信用申请评分，根据用户资料评估用户是否可以授信（如预付费用户可以透支、后付费用户可以延长账期），3、信用行为评分：根据用户过去的消费行为特征评估信用得分高低，便于调整话费透支额度或者付费账期，4、定位产品（如彩铃、WAP、增值数据业务等）目标用户：构建模型筛选产品营销的目标用户群。

聚类问题：用户细分：选择若干指标吧用户聚类为若干个组，组内特征相似，组间特征差异明显。当然用户细分的方法有很多，不一定都是采用聚类方法。聚类的优点是可以综合处理多维变量，缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分，习惯上成为Pre-Define的方法。这种方法的优点是便于解释且应用性强，缺点是对业务要求比较高，划分边界比较难定，对多维变量处理有难度。

关联问题：交叉销售：针对用户已经使用的产品和业务，向其推荐他没有使用的，但有可能有兴趣的产品。交叉销售的问题从某种角度上可以理解为分类问题，与定位产品目标用户这个问题比较相似。

预测问题：比较成型的应用不多，一般多为用户数预测、收入预测等。

序贯模式

给定的是对象的一个集合，每个对象都附有其自己的时间表，找到预测在不同时间之间强的序贯相依的规则（A B）（C）——>（D E）

规则首先由发现模型来形成，在模式中，时间出现由时间约束控制的。

例子：商店：鞋球拍和球——>运动衫
相关阅读:
php 多进程
 关于TP的RBAC的使用
 谈谈自己对于Auth2.0的见解
 php 写队列
 关于thinkphp中Hook钩子的解析
 JS的闭包
 单链表的查找和取值-1
shell输入输出重定向
 转-Visual Studio控制台程序输出窗口一闪而过的解决方法
 linux下如何调用不同目录下的.h 库文件
原文地址：https://www.cnblogs.com/RR-99/p/10369530.html

数据挖掘主要解决的四类问题以及常用到的算法

1、分类问题：

2、聚类问题：

3、关联问题：

4、预测问题（回归）：

应用：