• 《机器学习》(西瓜书)摘要


     第一章

    <待更>

    第二章 模型评估与选择

    1,经验误差与过拟合

    训练集上产生的误差成为训练误差或者经验误差;由于泛化误差不可知,故用经验误差来衡量泛化误差。

    应适当允许经验误差;不是越小越好,太小,则易过拟合;太大,则欠拟合;

    2,模型评估方法

    评估学习器泛化误差,所用的测试集,要尽可能与训练集互斥。从数据集中产生训练集与测试集的方法有:

    留出法(Hold-out):分层采样,直接将数据集分成互斥的两个集合,一个作为训练集,一个作为测试集。

    • 若干次随机划分,多次重复后取均值;训练集与数据集大小的妥协:2/3~4/5用于训练。

    交叉验证法(Cross Validation):先将数据集划分为k个大小相同的互斥子集(仍然分层采用),然后每次用k-1个子集的并集作为训练集,另一个作为测试集,进行k次,最终返回k个测试结果的均值。

    • 特例:留一法(leave-one-out),特点: 评估准确,但开销太大。

    自助法(Bootstrap):以自助采样法为基础,每次随机从数据集D中挑选一个样本,将其拷贝放入数据集D`;重复m次,就得到含有m个样本的训练集D`。DD`作为测试集。

    • Bagging和随机森林基于此。

     3, 性能度量

    错误率与精度

    查准率和查全率: P-R曲线。

    ROC和AUC:ROC是假正例率和真正例率的曲线;AUC:Area Under ROC Curve.

    第四章 决策树

    1,决策树及相关概念

    • 一棵决策树,一般包含一个根结点,若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试结果,被划分到子结点中。
    • 其余概念:最有划分属性,判定决策序列。

    2,划分选择 - 最有划分属性

    • 最优划分属性:使样本纯度越大,借用信息熵的概念,即信息增益 or 信息增益率 or 基尼系数最大;取决于归纳偏好。
    • 信息增益,偏好可取选择数目较多的属性,代表:ID3决策树学习算法;信息增益率,偏好可取选择数目较少的属性,代表:C4.5决策树学习算法:

    3, 剪枝处理 - 处理过拟合

    决策树处理过拟合的主要手段,分为预剪枝和后剪枝。

    • 预剪枝:在决策树生成的过程中,对每个结点在划分前进行评估,若当前结点的划分不能带来决策树泛化能力的提升,则停止划分,并将当前结点标记为叶结点。特点:欠拟合。
    • 后剪枝:先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察, 若将该结点对应的子树替换为叶结点能带来泛化能力的提升,则将该子树替换为叶结点。特点;欠拟合风险小,相对于预剪枝泛化能力更优;缺点是开销大。

    第五~七章 

    <待更>

    第八章 集成学习

    集成学习通过构建并结合多个学习器来完成学习任务。相关概念:同质/异质集成,基学习器/弱学习器/强学习器,个体学习器/组件学习器/集成学习器。

    集成的简短思路:通过多个学习器的结合,获得比单一学习器显著优越的泛化性能。对个体学习器的要求:准确并且多样。

    代表性的几个集成学习器:

    1,Boosting:个体学习器间强相互依赖,串行生成。

    • 先从初始训练集训练出一个基学习器,再根据器表现对训练器样本分布进行调整,使得先前学习器做错的样本在后续训练中受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复,直到基学习器数目达到指定数目T。最后将T个基学习器进行加权组合。

    2,Bagging:个体学习器间弱相互依赖,并行生成。

    • 基于Bootstrap法产生T个含有m个样本采样集。基于每个采样集训练出一个基学习器,然后将T个基学习器进行结合。
    • 对基学习器的输出进行结合时,Bagging通常对分类任务使用简单的投票法,对回归任务使用平均法。

    3,Random Forest: 与Bagging法的区别在于,RF基于决策树,引入了决策树随机属性选择。多样化包含了样本波动和属性波动,因此往往比Bagging性能好。

    4,结合策略

    平均法:取平均。

    投票法:少数服从多数。

    学习法(?)

  • 相关阅读:
    oracle:wm_concat函数与oracle版本
    “default关键字”与“序列化传输”的注意事项
    silverlight:利用telerik中的zip类对字符串进行压缩、解压
    引爆点不是坏事
    Liked:基于FriendFeed API的信息过滤器
    器物的改变
    让Blog成为一个中心?
    环球企业家《信息网站的未来》
    The readings, filtered by social network!
    0509·刘未鹏的TopLanguage聚会[一]
  • 原文地址:https://www.cnblogs.com/sanlangHit/p/11626950.html
Copyright © 2020-2023  润新知