机器学习（周志华）——学习笔记2

第2章模型评估与选择

1、error rate

分类错误的样本数占样本总数的比例

2、accuracy

精度=1-错误率

3、error

训练集上的误差：training error/empirical error

新样本上的误差：generalization error<越小越好>

4、overfitting

原因：学习能力过强

解决方案：关键障碍。无法彻底避免，只能缓解

5、uderfitting

原因：学习能力过低

解决方案：较容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等

6、模型评估和选择

使用testing set来测试学习期对新样本的判别能力，然后以测试集上的testing error作为generalization error的近似。测试集与训练集尽可能互斥。

1）留出法 (hold-out)：直接将数据集划分成两个互斥的集合

2）交叉验证法（cross validation）：先将数据集划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性（即从数据集中通过分层采样得到子集），k-1个子集的并集作为训练集，剩余的一个子集作为测试集。最后返回k个测试结果的均值。k通常取10，其他常用的也有5和20.

——交叉验证的特例，留一法（Leave-One-Out）

3)自助法：解决前两种由于划分出部分数据集作为测试集带来的训练样本规模变小而导致的估计偏差。

其他的概念，先缓缓

相关阅读:
Laravel 服务容器、服务提供器、契约实例讲解
通过event记录sql
laravel log改为时间格式
array_column函数
linux 安装ssh以及ssh用法与免密登录
scp复制文件到远程服务器上
nginx配置ssl证书后无法访问https
Mac 在terminal 上用命令打开sublime
Mac上通过iterm 上传文件到服务器
基于visual Studio2013解决算法导论之044最短路径

原文地址：https://www.cnblogs.com/bolumiere/p/6993474.html