机器学习部分题目

机器学习部分题目

题目1：谈谈缺失值的处理：

答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样，主要分为机械原因和人为原因。
下面简单讨论缺失值的一般处理方法：总体上来讲有删除法和插补法
一、删除法
（1）简单删除法：对有缺失值的条目直接删除；
优点：简单，对不完整的条目占样本总体较小时效果很好；
缺点：在不完整样本占样本总体比重较大时，丢失大量信息，影响后续处理
（2）权重法：
二、插补法
(1)特殊值填充：将缺失值用特殊值来填充，比如-1
有点：简单
缺点：可能导致严重数据偏离
(2)均值填充：如果是数值信息缺失，则用样本总体(或同标签样本)在该属性的均值来填充；如果是非数值信息缺失，则用频率最高的值来填充
优点：简单
缺点：不能反映缺失值的变异性；低估了资料变异
适用环境：低缺失率
(3)就近补齐(热卡填充)：对于有缺陷的对象，在完整数据中找一个与它最相似的对象，难点在于定义相似的标准。
优点：简单
缺点：对于相似的标准有很大主观性
(4)聚类填充：最为典型的代表是K最近距离邻法（K-means clustering），先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

(5)回归：基于完整的数据集，建立回归方程（模型）。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。
优点：方差估计较好
缺点：稳健性依赖于辅助变量；抽样误差不容易控制
适用环境：样本间相关性强

(6)极大似然估计：在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。
优点：样本信息利用充分，考虑了缺失值的不确定性
缺点：计算复杂
适用环境：高缺失率

(7)多重插补：多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。
优点：样本信息利用充分，考虑了缺失值的不确定性
缺点：计算复杂
适用环境：高缺失率

题目二：决策树连续值的处理：
关键在于连续值区间划分,下面是两种常用方法
C4.5：Information Gain （Ratio） based Threshold
CART：遍历所有输入变量j 和切分点s，根据最小化平方误差准则选取；

题目三:关联分析算法介绍至少两种
1.apriori:数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法. 具体可参考博客https://www.cnblogs.com/llhthinker/p/6719779.html
2.fp-growth:常见的挖掘频繁项集算法有两类，一类是Apriori算法，另一类是FP-growth. 具体参考博客https://www.cnblogs.com/bigmonkey/p/7478698.html
3.cca(典型相关分析):我们知道，两个随机变量x、y之间的线性关系可以通过对这两个变量的N组样本对进行线性回归求得。但是，如果要求两组随机变量x、y之间的线性关系，则可以用典型关联分析（Canonical correlation analysis）来求解。
具体参考博客https://blog.csdn.net/u012990623/article/details/39274513
相关阅读:
我是一个垃圾程序员
 前谷歌高管给初入职场新人的14条忠告
 儿童节过完了
 两块网卡实现多台机器共享上网
 Python下载prettyloaded的swf
关于mysql的1067与1045错误
 不使用定时器实现iframe的自适应高度
 JavaScript的大数阶乘
 两道函数式编程题
 字符串比较
原文地址：https://www.cnblogs.com/LuffysMan/p/10045847.html