• 概率样本机器学习中贝叶斯判决、概率分布、样本等概念间的关系


    废话就不多说了,开始。。。

        以下是在看模型识别,机器学习及数理统计时,对贝叶斯决策、概率分布、样本关系的总结,每想到一点就写下来,比较乱,这块需要重复学习、渐渐懂得。

        

        1. 机器学习的一些观点:

        什么是机器学习?

        机器学习包含哪些基本要素?

        

        机器学习,就是由已知数据,练习出一个模型,形成一个假设的空间,在拿到新的数据后,能在假设空间搜索出一个合理的结果。

        搜索出合理的结果,只是评价机器学习的效果,模型的优劣。

        

        如何建立模型,才是机器学习算法的核心,包含假设,推理,验证。

        

        如何保障目标观点在假设空间内?

        是否有包含所有假设的空间?

        如何保障收敛?

        假设空间的巨细与练习样例数量的关系?

        

        概率、贝叶斯公式与机器学习的关系?

        概率论,特别是贝叶斯公式,为机器学习提供了强有力的推导根据。

        

        1. 统计与概率、机器学习是什么关系?

        概率论及其分布函数、特性,是理论基础。而统计是应用,利用样本统计量来估计概率模型中的参数,而后更进一步获取更有用的统计数据。

        统计是机器学习中统计判决部份的理论基础。或者是说统计分析在机器学习方面的应用。

        

        2. 

        贝叶斯学习

        两个前提条件:

        1)类别,一般是已知类别的个数,各个类别的需要概率的初始知识,即先验概率P(h)。

        2)特征数据在各个类别中的概率分布,即先验条件分布P(x|h)。

        

        待解决的问题:

        已知采集的数据:

        练习数据D:包含特征数据和类别

        求:

        假设的分类面,或者一个采集到数据的分类。

        

        其中,问题又可分为 类别的先验概率P(h)已知,和未知两种情况。

        1)P(h)已知的情况。求解,绝对简略,普通的贝叶斯公式。

        

        2)P(h)未知,但一种类别的错误率已知的情况,求另外一个类别的错误率。可以利用聂曼-皮尔逊决策(N-P判决)来计算决策面。

        

        3. h为类别,D为特征数据,P(D|h)与P(h|D)的区分?

        计算假设目标的概率P(D|h). 假设建立时,观测到D的概率。有多种假设 都能观测到数据D,每种假设所占的比率。先验概率

        P(h|D),假设h的后验概率,其反应了练习数据后,假设h建立的概率。其反应了练习数据的影响。

        但先验概率p(h)是与练习数据D互相独立的.

        

        极大后验假设MAP, max a posteriori 最大可能假设。

        MAP = max(P(h|D))

        

        贝叶斯推理的概率,很大水平上依赖于 先验概率。 首先,需要知道 先验概率。

        
    由贝叶斯推理,推导出最大似然估计,再推导出最小方差估计(平方误差最小估计)。

        ---------------------------------------

        1. 

        在模式分类中,贝叶斯决策,比较简略的场景是:先验概率已知,然后,某两种或多种条件下,某事件产生的概率已知。 求出后验概率,即贝叶斯公式,根据后验概率的巨细,做出决策。

        

        略微庞杂的场景:

        先验概率已知,连续概率密度函数的类型已知,但是参数未知。 有大量的抽样数据,

        则据抽样数据,估计概率密度函数的参数。

        

        然后,据贝叶斯公式,计算出决策函数,决策面。

        

        拿到决策面,就能对测试数据进行分类了。

        

        在这里,有几个问题,如果弄清楚,对贝叶斯决策就会由比较清晰的掌握。

        1)什么判决函数,什么是判决面?

        对特征点进行分类的界面,就是判决面;而分类界面的函数就是判决函数。

        

        2) 后验概率与贝叶斯公式的关系,应用后验概率、贝叶斯决策的先决条件?

        类别的教训分布概率、特征在不同类别下的先验概率(即条件概率)已知,或者可计算

        

        3)经典分布概率,包含

        类别的先验概率

        类别特征的条件教训分布概率,即特征在不同类别中的概率

        

        4) max 与最小误差判决面的关系

        

        5)高斯分布

        如何求每一个类别的高斯分布?

        相邻判决面的求解?那非相邻类别那?

        

        6)高斯分布的分类,哪些因素有关?

        均值:决议中心位置

        方差:决议了判决面到中的距离

        

        7) 错误率有哪些?

        P1(e): P(w2|x), 分类为w1时,错误率

        P2(e): P(w1|x), 分类为w2时,错误率

        如何计算总的错误率?

        P(e) = 积分(max[P(w2|x)*P(x), P(w1|x)*P(x)])

        

        如何应用最大似然估计推导错误率?

        错误样本的个数t,总样本个数为N,假设错误率为e

        则其联合分布密度为

        二项分布

        求极值

        计算出,错误率的估计量 t/N

        

        8)聂曼-皮尔逊决策 的应用场景:

        P(wi)先验概率未知,在P2(e)已知的情况下,使P1(e)尽可能小的决策面。求判决阈值。

        

        采取拉格朗日乘数法 进行推导计算。

        因为P1(e)错误的后果比较严重,所以要严格制约其错误率。

        两种类别的概率密度函数已知:p(x|w1), p(x|w2)

        则判决函数为 p(x|w1) / p(x|w2)

        判决面为 p(x|w1) / p(x|w2) = lamda, lamda为阈值。

        

        阈值lamda如何求解?

        已知错误率P1(e),p(x1 | w1), 查表,可以求出阈值

        

        

        9) 均值向量,协方差矩阵未知情况下,如何利用样本进行估计

        向量形式:均值

        

        每日一道理
    宽容,是一种坦荡,可以无私无畏,无拘无束,无尘无染。宽容,是一种豁达,是比海洋和天空更为博大的胸襟,是宽广和宽厚的叠加,延续和升华。宽容有度,宽容无价,宽以待人,这是人生处世的基本法则。

        协方差矩阵:

        

        bays的练习,就是利用各个类别的样本,估计各个类别的方差和均值。然后计算决策面。

        

        判决函数,应该是一组空间的集合;而判决面就是两组空间的交集/交面。

        ---------------------------------------

        演绎偏置

        什么是无偏的学习器?

        期望与样本均值相等。线性特征。

        学习器必须对目标观点做预先的假设,否则无法对未来的实例进行分类。

        由于演绎学习需要预先假设,这类形式,被称为演绎偏置。 用自己话说就是 演绎假设。

        

        如何评估假设?

        1. 估计的方差

        均值的误差水平,也是概率分布的宽度或散度。随机变量与其均值的差有多大。即使均值无偏,方差可能比较大。

        2. 估计的偏差

        期望值,与实在值,差距

        

        精度的分析

        即或是分类的精度

        样本错误率:统计样本被错误分类的比率

        实在错误率:按实在概率分布抽取实例,然后统计器错误率

        

        样本错误率与实在错误率的关系?

        样本错误率是对实在错误率的估计。

        如何评价这类估计?

        统计理论:

        100%:实在错误率,是样本错误率

        95%:实在错误率,是一个区间,以样本错误率为中心的区间

        百分比,又称为相信度,而实在错误率的区间,又称为,相信区间。对于二项分布,样本个数越大,相信度不变,相信区间就越小。

        

        测试样本错误率多次

        每次选用不同的样本,统计的错误率符合 二项分布。

        

        独立且多次尝试的0-1实验,生成一个独立的、同分布的随机变量序列,这个序列

        其分布为 二项分布

        

        

        np(1-p) >= 5 或 n>=30时,二项分布可以用正态分布近似表现。

        --------------------------------------------------

        1. 朴实贝叶斯分类器

        即MAP,最大后验概率分类器。如何练习分类器?

        已知练习数据。

        只需统计各个类别的频率p(h),及特征数据在各个类别中的频率(D|h)。

        已知待分类数据D,可以求其max(P(h|D)),等同于max(p(hj) * p(D|hj))

        

        2. 贝叶斯网络

        是指一组条件概率,而朴实贝叶斯分类器假设所有特征变量是互相独立的。而贝叶斯网络将此条件放宽。

        懂得贝叶斯网络,就需要懂得条件独立性。两个变量间无互相影响,及互相独立。条件独立,两个变量,在给定条件下,如第三个变量的指定值的条件下,互相独立。

        

        条件概率,具有传播性,形成一个链式的规则。

        如

        x -> y -> z -> w

        每两个相邻变量的条件概率都知道,如何求P(w|x)。这就是贝叶斯定理的概率传播。

        

        联合概分布的求解。

        p(xyzw) = p(x) * p(y|x) * p(z|x,y) * p(w|x, y, z)

        

        贝叶斯网络的一个重要性子,一个节点独立于非先驱节点。即p(xi | x(i-1)...x1) = p(xi | x(i-1)) 类似马尔科夫进程。

        贝叶斯网络,也可以看做马尔科夫链的非线性扩展。

        

        结构形式:

        有向无环图(DAG),等于一个前向多段图的结构

        

        如何学习 贝叶斯相信网络?

        1. 可以预先给出网络结构

        2. 也可以 由练习数据来获取

        

        网络变量如何获取?

        有的可以从练习样例中失掉,有些不能失掉。

        

        需要懂得的观点:

        1. 条件概率,条件独立性。

        p(x3 | x2, x1) = p(x3 | x2)

        p(x3 | x1)  链式计算

        p(x1 | x3)

        或者,可以懂得,给定先驱节点的值时,本节点独立于非先驱节点。而先驱节点不确定时,本节点与非相邻节点就有不独立了。

        2. 贝叶斯网络的概率推理,概率链式计算。

        3. 变量消元算法,进行推理计算

        4. 团树传播算法,进行推理计算

        5. 近似推理,大数定律

        

        6. 结构学习:发现变量之间的图关系

        7. 参数学习: 决议变量之间互相关联的量化关系: 最大似然估计,贝叶斯估计

        

        ------------------------------------------------------------------------------------------------

        

        高斯混合模型

        序列视频图像,背景分析的处理方式:

        1. 直接选用一帧,作为背景

        2. 序列图像,加权

        3. 高斯混合建模GMM

        1)判定

        2)更新

        前两个比较好懂得。而GMM的懂得需要 高斯分布、样本与整体的关系懂得作为基础。

        单分布高斯背景建模 是指所有像素都服从统一分布。

        高斯混合背景建模 是指多个像素服从不同的高斯分布,且不同的权值。

        

        首先,假设,一个像素点作为背景像素的分布服从高斯分布。一个像素点的连续序列如X1,X2,...Xn都是随机变量,服从统一正态分布。即单分布高斯背景建模

        而一个像素点的实际值就是样本值。

        样本与样本值要区分开的。

        

        高斯分布的参数:期望,方差都是未知的。所以,需要样本进行估计分析。

        

        由序列图像,可以计算出样本均值/期望,样本方差/协方差,再有一个样本值,与均值、样本值的关系。当大于某阈值时,就认定为背景,小于某阈值时,判定为远景。

        样本值、均值、方差、权值

        学习率

        

        

    文章结束给大家分享下程序员的一些笑话语录: 程序员打油诗   
      写字楼里写字间,写字间里程序员;
      程序人员写程序,又拿程序换酒钱。
      酒醒只在网上坐,酒醉还来网下眠;
      酒醉酒醒日复日,网上网下年复年。
      但愿老死电脑间,不愿鞠躬老板前;
      奔驰宝马贵者趣,公交自行程序员。
      别人笑我忒疯癫,我笑自己命太贱;
      不见满街漂亮妹,哪个归得程序员。

  • 相关阅读:
    超酷震撼 HTML5/CSS3动画应用及源码
    精美jQuery插件及源码 前端开发福利
    web前端炫酷实用的HTML5应用和jQuery插件
    8个web前端的精美HTML5 & CSS3效果及源码下载
    分享web前端七款HTML5 Loading动画特效集锦
    7款超酷HTML5 3D动画精选应用及源码
    8个WEB前端创意HTML5动画应用精选
    让人心动的jQuery插件和HTML5动画
    华丽的HTML5/jQuery动画和应用 前端必备
    炫酷实用的jQuery插件 涵盖菜单、按钮、图片
  • 原文地址:https://www.cnblogs.com/xinyuyuanm/p/3093367.html
Copyright © 2020-2023  润新知