• 机器学习部分题目


    题目1:谈谈缺失值的处理:

    答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样,主要分为机械原因和人为原因。
    下面简单讨论缺失值的一般处理方法:总体上来讲有删除法和插补法
    一、删除法
    (1)简单删除法:对有缺失值的条目直接删除;
    优点:简单,对不完整的条目占样本总体较小时效果很好;
    缺点:在不完整样本占样本总体比重较大时,丢失大量信息,影响后续处理
    (2)权重法:
    二、插补法
    (1)特殊值填充:将缺失值用特殊值来填充,比如-1
    有点:简单
    缺点:可能导致严重数据偏离
    (2)均值填充:如果是数值信息缺失,则用样本总体(或同标签样本)在该属性的均值来填充;如果是非数值信息缺失,则用频率最高的值来填充
    优点:简单
    缺点:不能反映缺失值的变异性;低估了资料变异
    适用环境:低缺失率
    (3)就近补齐(热卡填充):对于有缺陷的对象,在完整数据中找一个与它最相似的对象,难点在于定义相似的标准。
    优点:简单
    缺点:对于相似的标准有很大主观性
    (4)聚类填充:最为典型的代表是K最近距离邻法(K-means clustering),先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

    (5)回归:基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。
    优点:方差估计较好
    缺点:稳健性依赖于辅助变量;抽样误差不容易控制
    适用环境:样本间相关性强

    (6)极大似然估计:在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。
    优点:样本信息利用充分,考虑了缺失值的不确定性
    缺点:计算复杂
    适用环境:高缺失率

    (7)多重插补:多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
    优点:样本信息利用充分,考虑了缺失值的不确定性
    缺点:计算复杂
    适用环境:高缺失率

    题目二:决策树连续值的处理:
    关键在于连续值区间划分,下面是两种常用方法
    C4.5:Information Gain (Ratio) based Threshold
    CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;

    题目三:关联分析算法介绍至少两种
    1.apriori:数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法. 具体可参考博客https://www.cnblogs.com/llhthinker/p/6719779.html
    2.fp-growth:常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth. 具体参考博客https://www.cnblogs.com/bigmonkey/p/7478698.html
    3.cca(典型相关分析):我们知道,两个随机变量x、y之间的线性关系可以通过对这两个变量的N组样本对进行线性回归求得。但是,如果要求两组随机变量x、y之间的线性关系,则可以用典型关联分析(Canonical correlation analysis)来求解。
    具体参考博客https://blog.csdn.net/u012990623/article/details/39274513

  • 相关阅读:
    我是一个垃圾程序员
    前谷歌高管给初入职场新人的14条忠告
    儿童节过完了
    两块网卡实现多台机器共享上网
    Python下载prettyloaded的swf
    关于mysql的1067与1045错误
    不使用定时器实现iframe的自适应高度
    JavaScript的大数阶乘
    两道函数式编程题
    字符串比较
  • 原文地址:https://www.cnblogs.com/LuffysMan/p/10045847.html
Copyright © 2020-2023  润新知