Evernote Export
1.监督学习
我们向系统中输出样本,并且告诉系统样本标签(target),系统用我们给出的不同样本的成功与失败的信息,构建它对成功或失败的因素的理解。
2.分类与回归之间的区别
分类知识一个获取某类输入的过程,然后将它(x)映射到某些离散标签(T or F)
分类与回归的区别
分类是从某中输入映射到某些可能代表概念的少量离散值
回归是从某种输入空间映射到某个实际数组
分类的输出最终是几个固定的离散值
回归的输出最终是连续的值域
3.分类学习
术语解释
1.instances(实例) 就是值和属性的向量输入
2.concept(函数) function 函数将输入映射到输出,提取实例
3.target(目标) 实际的输出答案
4.hypothesis(假设)考虑的所有概念的集合,就是所有可能的函数
5.sample(样本)训练集合 所有的输入与对应的标签集合的数据集
6.candidate(候选者) 一个你认为可能会成为目标的值
7.testing set(测试集)在测试时,用测试集进行测试由候选者的概念判断其是否正确,然后将其与测试集的实际结果进行比较
测试集和训练集不能是相同的,这样就不能表示出模型的泛化能力
4.表示法
决策树的表示法:只有在了解并分析样本后,我们才能思考查找或构建决策树的算法
5.决策树学习
1.挑选最佳属性
2.根据回答挑选更多属性
3.跟据路径查找更多的属性和道路
4.找到最终的输出结果
12.决策树可表达性 AND
决策树可以用布尔值的正否表示
18.ID3算法
你只需要不断循环,直至解决问题,在每个步骤中,你都要挑选最佳属性,然后假设最佳属性按照我们希望的方式分割数据,执行所有的属性操作,然后将得到的决策结果传给下一个节点,以此类推,将训练样本分类到叶子中。
信息增益:信息增益只是用于捕捉通过挑选特定属性获取的信息量的数学方法,真正讨论的是在了解特定属性的值以后,数据集上设置的标签的随机性的降低,所以公式如下
Gain(S,A)=Entropy(S)−v∑∣S∣∣Sv∣Entropy(Sv)
S是要查看的训练样本的集合,A作为特征属性,是训练样本集的熵与标签有关
什么是熵?
测量随机性的一种方法。
熵的公式
Entropy(S=)−v∑P(v)logp(v)
使用决策树的最终目的就是提高信息增益率
19.ID3偏差
归纳偏差
1.限定偏差
2.优选偏差:优选偏差会首选好分割靠近顶部的决策树,更偏向于为数据创建较好模型的决策树,而不是为数据创建交叉的决策树
偏向于更短的决策树而不是更长的决策树,所以计算时间也会更少
20.决策树的连续属性
如果是连续的变量,那么需要检查的数据就会很多,原则上是无限的,也可以看到训练集,然后直接根据训练集上的数值范围进行查找,甚至进行二分查找都是可以的。
21.决策树的其他注意事项
算法什么时候停止?
当所有的样本都落入点位的时候就会结束算法,但是有噪音的时候算法就会进行无限循环
在决策树的过程中出现过拟合往往是因为树过于庞大并且枝丫过多,违反了奥卡姆剃刀定律,所以使用交叉验证的方法可以减少过拟合的程度
或者保留一个验证集来求出误差
22.决策树的回归
对于回归问题,决策树如何实现输出的连续性而不是离散型
23.决策树小结
1.决策树的表示
2.自顶向下算法ID3
3.可表达性
4.ID3的偏差
5.信息增益,找到最佳属性
6.过拟合问题