• # ML学习小笔记—Where does the error come from?


    关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


    错误来自哪里?

    error due to "bias" and error due to "variance"

    当我们要求无穷多个数的平均值或者方差时,我们选取了N个样本出现计算。很显然我们得到的结果是存在一定误差的。当我们选区的样本的值越多的时候,我们得到的结果也就越准确。类比于训练模型,我们所选择的训练数据是有限的,很多时候我们希望他们效果可靠,数量可观。但是往往并非如此。例如下图:

    我们所期望的模型为靶心的f。但是在我们定义的某个模型下,训练数据所推出的效果集中于f非。这两者的距离成为Bias,即偏差。训练集的离散程度为Variance,即方差,这样就导致了错误的出现。

    在上图中,左上角的模型为最好的模型。


    当我们的模型越简单,所得到的Variance越低,但是他的Bias相对越差。
    当模型越复杂的时候,得到的Bias相对较好,但是Variance变高了。

    原因在于,较简单的模型表达的范围较少,可无法包过最佳的模型,而较复杂的模型所表达的范围较广,能够包过最佳的模型。


    所以会存在过度拟合和欠拟合的情况。当我们训练模型的时候,要根据实际的情况去调整自己的模型。

    我们要清楚Bias和variance哪个比较大:

    • 如果你的模型不适合训练样例,得出来的模型有较大差异,那么你就有很大的Bias
    • 如果您可以拟合训练数据,但测试数据存在较大误差,那么您可能会有很大的Variance

    当Bias过大时候:

    • 增加更多的feature
    • 选择更复杂的模型

    当Variance过大时候:

    • 增加更多的训练数据
    • 使用Regularization(这一点在第一章被我略过,见下图)

    如何选择适合的模型?

    There is usually a trade-off between bias and variance.

    Select a model that balances two kinds of error to minimize total error

    我们通过Training Set得出的模型在Testing Set中返回的error最低,但这并不意味着在真实的Testing Set得到的结果最优。

    原因在于我们手中的Testing Set并不能很好的代表真实的情况,他的Bias与现实的情况还是存在着距离的。所以得出来的error并不能完美的代表现实

    所以我们选择模型应该这样做:

    将Training Set分成两组,然后一组用来选择model,选出来最优的model在我们手中Testing Set得到的error较能反映现实的情况:

    或者下图中的交叉验证:


    写完博客才更好的理解了整个思路。

  • 相关阅读:
    java反射小练习
    Set与list测试
    关于用户界面
    自定义标签打包使用问题
    jsp中获取当前访问路径
    LeetCode 汇总
    LeetCode 46. 全排列
    LeetCode 40.组合总和II
    LeetCode 39.组合总和
    LeetCode 37.解数独
  • 原文地址:https://www.cnblogs.com/Huzr/p/9976096.html
Copyright © 2020-2023  润新知