lecture 3 - 润新知

lecture 3

1. Bias-Variance Decomposition

irreducible error无法被减小，而reducible error可以通过对model的调整将其最小化

2. 一般情况下而言，model越复杂，bias越小，而variance越高，故而我们要找到一个平衡使MSE最小

3. categorical variables

indicator变量指那些取值为0或1的变量，如将服用药剂以及不服用药剂的病人分成两种情况讨论

4. 三种方法对简化model的复杂性

a) subset-selection，大集合分散成小集合，每个小集合都有自己的model

找到最主要的features，去掉冗余的部分，这个步骤叫做stepwise regression(三个贪心算法可以实现)：

aa. 从没有variable开始，一步步加入影响最大的variable

ab. 从全部variables都在开始，一点点去掉影响最小的

ac. 一点点尝试每一个variable保留或者删除

b) shrinkage，将不重要的系数设置为0，只关注重要的

c) dimensionality-reduction，将点投影到较低纬度空间中

5. classification分为两类

a) generative learning algorithm：按照类别分析model

b) discriminative algorithm：focus on decision boundary

6. 算法需要在学习前将全部的training data准备好：batch learning或offline learning

如果在新的data加入后还能继续学习教online learning

7. 如果model有固定数量的parameters，则为parametric；若parameters的数量随着training data的数量增加，则为non-parametric，更加灵活

8. deduction：推论，从整体情况预测某一现象；

consequences：归纳，从特定情况推断整体

9. cross-validation

用validation set得到一些特定parameter

a) holdout method: 直接从中间分开，记住train test之间是独立的

b) leave-one-out cross validation(LOOCV): 每个iteration中选择一个

c) K-fold cross validation: 分成K份

b c区别？

10. data types

a) numerical--categorical(not numbers)

b) irrelevant: 数字或string，与output无关

nominal：不同类别之间没有数值关系的离散值（如动物类型）

binary：只有两个可能性

ordinal：可以排序的离散整数，但无法定义两个数字之间的相对距离

count

time:周期性重复的连续数据形式(天，周)

interval：我们可以对两个值之间的差距进行测量的数据

11. binary classification task在binary classification中，我们希望将给定集合的数据分为两组，通常一组为positive一组negative，有时这些组同等重要，有时某一类对错误的容忍度会更高

12. evaluation metrics

前面的true或者false表示预测结果是否正确，后面的positive或者negative代表预测的结果；也称为confusion matrix

13. classification accuracy

14. 其他evaluation metrics

除了上述两种方法还有F1，对于F1而言，precision与recall被赋予了同等重要性，有些时候是不允许，故而我们需要自行判断什么最重要

最主要的方法之一是AUC-ROC

最好的model就是AUC=1，越靠近越好；越靠近0越不好，或理解为弧线下的面积越大越好
相关阅读:
Apache（文章测试）
这是一篇Markdown手册
 Linux MySQL 8.0 忘记密码
 composer 自动加载源码解析
 Linux 连接 Internet
PHP namespace、abstract、interface、trait使用介绍
 网络基础知识
 CentOS7安装Nginx、MySQL、PHP
局域网内使用ssh连接两台计算机总结
 整数和浮点数的表示方法
原文地址：https://www.cnblogs.com/eleni/p/12363267.html