《机器学习》（西瓜书）摘要

《机器学习》（西瓜书）摘要
第一章

<待更>

第二章模型评估与选择

1，经验误差与过拟合

训练集上产生的误差成为训练误差或者经验误差；由于泛化误差不可知，故用经验误差来衡量泛化误差。

应适当允许经验误差；不是越小越好，太小，则易过拟合；太大，则欠拟合；

2，模型评估方法

评估学习器泛化误差，所用的测试集，要尽可能与训练集互斥。从数据集中产生训练集与测试集的方法有：

留出法（Hold-out）：分层采样，直接将数据集分成互斥的两个集合，一个作为训练集，一个作为测试集。
- 若干次随机划分，多次重复后取均值；训练集与数据集大小的妥协：2/3~4/5用于训练。
交叉验证法（Cross Validation）：先将数据集划分为k个大小相同的互斥子集（仍然分层采用），然后每次用k-1个子集的并集作为训练集，另一个作为测试集，进行k次，最终返回k个测试结果的均值。
- 特例：留一法（leave-one-out），特点：评估准确，但开销太大。
自助法（Bootstrap）：以自助采样法为基础，每次随机从数据集D中挑选一个样本，将其拷贝放入数据集D`；重复m次，就得到含有m个样本的训练集D`。DD`作为测试集。
- Bagging和随机森林基于此。
3, 性能度量

错误率与精度

查准率和查全率: P-R曲线。

ROC和AUC：ROC是假正例率和真正例率的曲线；AUC：Area Under ROC Curve.

第四章决策树

1，决策树及相关概念
- 一棵决策树，一般包含一个根结点，若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试结果，被划分到子结点中。
- 其余概念：最有划分属性，判定决策序列。
2，划分选择 - 最有划分属性
- 最优划分属性：使样本纯度越大，借用信息熵的概念，即信息增益 or 信息增益率 or 基尼系数最大；取决于归纳偏好。
- 信息增益，偏好可取选择数目较多的属性，代表：ID3决策树学习算法；信息增益率，偏好可取选择数目较少的属性，代表：C4.5决策树学习算法：
3，剪枝处理 - 处理过拟合

决策树处理过拟合的主要手段，分为预剪枝和后剪枝。
- 预剪枝：在决策树生成的过程中，对每个结点在划分前进行评估，若当前结点的划分不能带来决策树泛化能力的提升，则停止划分，并将当前结点标记为叶结点。特点：欠拟合。
- 后剪枝：先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来泛化能力的提升，则将该子树替换为叶结点。特点；欠拟合风险小，相对于预剪枝泛化能力更优；缺点是开销大。
第五~七章

<待更>

第八章集成学习

集成学习通过构建并结合多个学习器来完成学习任务。相关概念：同质/异质集成，基学习器/弱学习器/强学习器，个体学习器/组件学习器/集成学习器。

集成的简短思路：通过多个学习器的结合，获得比单一学习器显著优越的泛化性能。对个体学习器的要求：准确并且多样。

代表性的几个集成学习器：

1，Boosting：个体学习器间强相互依赖，串行生成。
- 先从初始训练集训练出一个基学习器，再根据器表现对训练器样本分布进行调整，使得先前学习器做错的样本在后续训练中受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，如此重复，直到基学习器数目达到指定数目T。最后将T个基学习器进行加权组合。
2，Bagging：个体学习器间弱相互依赖，并行生成。
- 基于Bootstrap法产生T个含有m个样本采样集。基于每个采样集训练出一个基学习器，然后将T个基学习器进行结合。
- 对基学习器的输出进行结合时，Bagging通常对分类任务使用简单的投票法，对回归任务使用平均法。
3，Random Forest: 与Bagging法的区别在于，RF基于决策树，引入了决策树随机属性选择。多样化包含了样本波动和属性波动，因此往往比Bagging性能好。

4，结合策略

平均法：取平均。

投票法：少数服从多数。

学习法（？）
相关阅读:
oracle:wm_concat函数与oracle版本
 “default关键字”与“序列化传输”的注意事项
 silverlight：利用telerik中的zip类对字符串进行压缩、解压
 引爆点不是坏事
 Liked:基于FriendFeed API的信息过滤器
 器物的改变
 让Blog成为一个中心？
环球企业家《信息网站的未来》
The readings, filtered by social network!
0509·刘未鹏的TopLanguage聚会[一]
原文地址：https://www.cnblogs.com/sanlangHit/p/11626950.html