• 关于噪声和误差的概念


    背景:

      最近在学习时通常会听到一些词就是噪音和降噪。同样为了解惑将网上搜来的解答在这里总结下。

    解答:

      我的总结:训练集中的目标变量的错误,输入变量某一维不准确,这些数据被称为噪声。

          貌似错误和噪声是同义词。

    摘录:

        在实际情形中,训练数据的误标签的情况,输入数据某一维不准确的情况,都可能导致数据信息不精准,产生噪声数据。
    由于受到噪声的影响,我们现在可以把y也看做是一种概率分布,y也是从某种分布中取样而来的,即y~P(y|x)。

    这里的P(y|x)被称为目标分布。回头来看,我们可以把学习的目标总结为,在常见的输入(符合P(x))中可以预测出理想的目标(P(y|x))。(这不是监督学习的定义吗?)

    错误衡量(Error Measure)

    有两种错误计算方法:

    第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;

    第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归

    错误的类型

    不同的错误类型可能导致不同的惩罚策略。


     

    这两种错误分别是错误接受(false accept,即实际是负例,却判为正例)和错误拒绝(false reject,即实际为正例,却判为负例)。
    在有些地方这两种错误也称作false positive(假阳性,误报,把合法的判断成非法的)false negative(假阴性,漏报,把非法的判断成合法)

    这里有时会弄混淆,记得在医学上,阳性代表有病或者有病毒,阴性代表正常,那么假阳性就是把正常诊断为有病毒,而假阴性就是把有病毒诊断为正常。

    超市指纹识别的例子

    如果在超市中通过指纹识别来进行打折活动,如果是vip用户,之前有指纹录入的话,就应该有优惠活动,否则没有。
    如果发生false reject的情况,那么顾客可能会不高兴,这样就会损失了一部分未来的生意;而如果发生false accept的话,超市只不过损失了一点小钱。
    所以对于超市的成本表,false reject会牺牲成本比较大,而false accept牺牲的成本会较小。所以,我们应该尽量避免false reject的情形。


     

    CIA指纹识别的例子

    如果美国中情局,用指纹识别来判断该人是否有权限进入系统查看重要资料。
    那么,发生false accept的情况会导致很严重的后果,而false reject的话,就不会有太大的影响。
    所以对于CIA的成本表,应该尽量避免false accept的情形。

    尚待解决的疑问或者改进:

    链接:

      http://www.jianshu.com/p/4b3b43b4b39d

  • 相关阅读:
    Docker安装
    MVC-HtmlHelper简单总结
    D3.js
    分布式事务seata
    彻底搞懂JAVA路径问题
    idea 代码生成
    自动生成 serialVersionUID 的设置
    狂神说SSM框架系列连载
    缓存穿透、缓存击穿、缓存雪崩区别和解决方案
    多线程
  • 原文地址:https://www.cnblogs.com/arachis/p/5942259.html
Copyright © 2020-2023  润新知