题目1:谈谈缺失值的处理:
答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样,主要分为机械原因和人为原因。
下面简单讨论缺失值的一般处理方法:总体上来讲有删除法和插补法
一、删除法
(1)简单删除法:对有缺失值的条目直接删除;
优点:简单,对不完整的条目占样本总体较小时效果很好;
缺点:在不完整样本占样本总体比重较大时,丢失大量信息,影响后续处理
(2)权重法:
二、插补法
(1)特殊值填充:将缺失值用特殊值来填充,比如-1
有点:简单
缺点:可能导致严重数据偏离
(2)均值填充:如果是数值信息缺失,则用样本总体(或同标签样本)在该属性的均值来填充;如果是非数值信息缺失,则用频率最高的值来填充
优点:简单
缺点:不能反映缺失值的变异性;低估了资料变异
适用环境:低缺失率
(3)就近补齐(热卡填充):对于有缺陷的对象,在完整数据中找一个与它最相似的对象,难点在于定义相似的标准。
优点:简单
缺点:对于相似的标准有很大主观性
(4)聚类填充:最为典型的代表是K最近距离邻法(K-means clustering),先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
(5)回归:基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。
优点:方差估计较好
缺点:稳健性依赖于辅助变量;抽样误差不容易控制
适用环境:样本间相关性强
(6)极大似然估计:在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。
优点:样本信息利用充分,考虑了缺失值的不确定性
缺点:计算复杂
适用环境:高缺失率
(7)多重插补:多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
优点:样本信息利用充分,考虑了缺失值的不确定性
缺点:计算复杂
适用环境:高缺失率
题目二:决策树连续值的处理:
关键在于连续值区间划分,下面是两种常用方法
C4.5:Information Gain (Ratio) based Threshold
CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;
题目三:关联分析算法介绍至少两种
1.apriori:数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法. 具体可参考博客https://www.cnblogs.com/llhthinker/p/6719779.html
2.fp-growth:常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth. 具体参考博客https://www.cnblogs.com/bigmonkey/p/7478698.html
3.cca(典型相关分析):我们知道,两个随机变量x、y之间的线性关系可以通过对这两个变量的N组样本对进行线性回归求得。但是,如果要求两组随机变量x、y之间的线性关系,则可以用典型关联分析(Canonical correlation analysis)来求解。
具体参考博客https://blog.csdn.net/u012990623/article/details/39274513