• lecture 3


    1. Bias-Variance Decomposition

    irreducible error无法被减小,而reducible error可以通过对model的调整将其最小化

    2. 一般情况下而言,model越复杂,bias越小,而variance越高,故而我们要找到一个平衡使MSE最小

    3. categorical variables

    indicator变量指那些取值为0或1的变量,如将服用药剂以及不服用药剂的病人分成两种情况讨论

    4. 三种方法对简化model的复杂性

    a) subset-selection,大集合分散成小集合,每个小集合都有自己的model

    找到最主要的features,去掉冗余的部分,这个步骤叫做stepwise regression(三个贪心算法可以实现):

    aa. 从没有variable开始,一步步加入影响最大的variable

    ab. 从全部variables都在开始,一点点去掉影响最小的

    ac. 一点点尝试每一个variable保留或者删除

    b) shrinkage,将不重要的系数设置为0,只关注重要的

    c) dimensionality-reduction,将点投影到较低纬度空间中

    5. classification分为两类

    a) generative learning algorithm:按照类别分析model

    b) discriminative algorithm:focus on decision boundary

     

     

     6. 算法需要在学习前将全部的training data准备好:batch learning或offline learning

    如果在新的data加入后还能继续学习教online learning

    7. 如果model有固定数量的parameters,则为parametric;若parameters的数量随着training data的数量增加,则为non-parametric,更加灵活

    8. deduction:推论,从整体情况预测某一现象;

    consequences:归纳,从特定情况推断整体

    9. cross-validation

    用validation set得到一些特定parameter

    a) holdout method: 直接从中间分开,记住train test之间是独立的

    b) leave-one-out cross validation(LOOCV): 每个iteration中选择一个

    c) K-fold cross validation: 分成K份

    b c区别?

    10. data types

    a) numerical--categorical(not numbers)

    b) irrelevant: 数字或string,与output无关

    nominal:不同类别之间没有数值关系的离散值(如动物类型)

    binary:只有两个可能性

    ordinal:可以排序的离散整数,但无法定义两个数字之间的相对距离

    count

    time:周期性重复的连续数据形式(天,周) 

    interval:我们可以对两个值之间的差距进行测量的数据

    11. binary classification task在binary classification中,我们希望将给定集合的数据分为两组,通常一组为positive一组negative,有时这些组同等重要,有时某一类对错误的容忍度会更高

    12. evaluation metrics

    前面的true或者false表示预测结果是否正确,后面的positive或者negative代表预测的结果;也称为confusion matrix

    13. classification accuracy

     14. 其他evaluation metrics

     除了上述两种方法还有F1,对于F1而言,precision与recall被赋予了同等重要性,有些时候是不允许,故而我们需要自行判断什么最重要

     最主要的方法之一是AUC-ROC

     最好的model就是AUC=1,越靠近越好;越靠近0越不好,或理解为弧线下的面积越大越好

  • 相关阅读:
    Apache(文章测试)
    这是一篇Markdown手册
    Linux MySQL 8.0 忘记密码
    composer 自动加载源码解析
    Linux 连接 Internet
    PHP namespace、abstract、interface、trait使用介绍
    网络基础知识
    CentOS7安装Nginx、MySQL、PHP
    局域网内使用ssh连接两台计算机总结
    整数和浮点数的表示方法
  • 原文地址:https://www.cnblogs.com/eleni/p/12363267.html
Copyright © 2020-2023  润新知